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谭 茸 让 我 为 他 工作 之 余 的 用 心 之 作 《 应 用 软件 开发 协议 栈 》 作 序 ,我 欣然 接受 邀请 ,期 费 
能 够 鼓励 更 多 优秀 的 同事 勇于 钻研 实践 、 乐 于 分 享 知 识 。 

近年 来 ,AIoT( 智 能 物 联 ) 成 了 老 王 企业 的 追逐 目标 。 但 从 概念 到 落地 ,企业 转型 为 
AIoT 产品 技术 型 公司 需要 面 对 一 个 又 一 个 困难 与 挑战 。 技 术 能 力 .行业 能 力 以 及 人 才 队 伍 
是 实施 AIoT 战略 转型 的 基础 。 到 底 需 要 什么 样 的 技术 能 力 才 能 起 航 AIoT 这 稻 战 舰 ? 这 是 
个 仁者 见 仁 智 者 见 智 的 问题 。 但 有 一 点 应 该 是 可 以 达成 共识 的 :企业 需要 软件 开发 领域 的 
全 栈 能 力 和 拥有 这 种 能 力 的 人 才 队 伍 。 从 这 一 点 来 说 ,《 应 用 软件 开发 协议 栈 》 一 书 的 出 版 
正 着 其 时 。 

智能 应 用 软件 是 AIoT 系统 的 重要 组 成 部 分 ,其 稳定 性 如 何 ? 性 能 怎么 样 ? 是 否 易 于 扩 
展 ? 是 否 体现 了 应 用 使 能 与 数据 智能 的 融合 性 ? 诸如 这 些 问题 都 直接 关系 到 整个 AIoT 系统 
的 效能 发 挥 ,关系 到 用 户 的 体验 ,也 关系 到 整个 系统 在 高 智能 高 并 发 下 的 和 鲁 棒 性 。 如 何 才 能 
具备 这 种 构建 与 开发 一 个 好 的 智能 应 用 软件 的 技术 能 力 ? 这 是 AIoT 企业 必须 要 回答 的 问题 。 

全 书 从 整个 信息 化 系统 的 “全 栈 ” 组 成 出 发 ,以 底层 系统 的 运行 机 理 为 主线 ,以 自主 可 
控 \、 安 全 可 用 为 抓 手 ,详细 描述 了 操作 系统 、 通 信 协 议 、 安 全 防护 等 领域 的 原理 各 机制 ,力求 
为 读者 展示 软件 运行 各 组 成 部 分 的 全 貌 ,呈现 底层 支撑 系统 和 安全 防护 的 知识 图 谱 。 根 据 
我 的 经 验 ,这 样 详尽 的 内 容 , 一 定 会 引起 开发 工程 师 的 共鸣 启发 和 探讨 。 

2020 年 将 迎 来 5G 应 用 元 年 ,AIoT 技术 将 推动 人 工 智能 大 数据 与 物 联网 在 智慧 城市 和 
企业 数字 化 转型 中 的 深度 应 用 。 力 维 智联 选择 AIoT 作为 企业 的 核心 战略 ,致力 于 全 智能 和 
高 性 能 的 AIoT 系统 的 创新 与 开发 。 因 此 ,这 本 书 也 源 自作 者 及 其 团队 在 AlIoT 系统 开发 实 
践 中 的 技术 积累 ,是 一 线 工 作者 的 经 验 沉淀 与 总 结 。 

我 相信 ,每 一 位 读者 都 能 够 从 本 书 中 受益 。 


徐 明 
深圳 市 人 工 智能 产业 协会 监事 长 
深圳 力 维 智联 董事 长 兼 CEO 
2020 年 1 月 


应 用 软件 开发 是 一 个 非 稼 广阔 的 领域 , 草 含 了 无 限 的 可 能 。 特 别 是 Intel . AMD NVIDIA 
数据 制胜 , 越 来 越 积 极 啊 应 眼下 时 兴 的 以 软 硬 件 解 耦 为 最 终 目 的 的 SDN (Software Defined 
Network ,软件 定义 网 络 ) .SDS( Software Defined Storage ,软件 定义 存储 ) 等 技术 ,凸显 了 软件 ， 
特别 是 上 层 应 用 软件 的 价值 。 因 此 ,了 解 软件 的 全 栈 链 ,理解 支撑 软件 运行 的 软 硬 件 结构 、 
操作 系统 .通信 协议 和 防护 机 制 就 显得 起 来 越 重 要 。 

从 故 一 个 角度 看 ,软件 是 大 数据 的 汇聚 方 和 使 用 者 ,任何 数据 的 价值 只 有 通过 软件 才能 
实现 。 因 此 ,怎么 保证 数据 在 软件 中 的 合理 流向 ,怎么 做 好 软件 中 数据 资源 的 安全 防护 , 怎 
么 保证 在 传输 中 数据 的 高 效 和 私密 ,就 成 了 开发 者 的 another important subject。 

这 本 书 的 命名 中 包含 了 “协议 栈 ” 一 词 ,从 计算 机 专业 英语 的 角度 来 说 ,协议 就 是 
protocol ,这 一 般 指 狭义 上 的 通信 协议 。 但 从 广义 上 来 说 ,软件 的 整个 stack 或 者 说 chain, 它 
们 之 间 的 分 层 ,它们 之 间 的 ABI( Application Binary Interface, 应 用 二 进 制 接 口 ) 不 也 是 协议 的 
一 种 吗 ? 这 种 协议 或 者 说 规约 (stipulation) ,不 正 是 以 分 层 和 堆栈 的 思想 支撑 着 软件 的 运行 
吗 ? 因此 ,这 本 书 以 协议 栈 来 命名 ,就 是 要 描述 在 这 种 规约 下 操作 系统 是 怎么 运行 的 ,网 络 
协议 有 什么 特点 ,系统 安全 是 怎么 回 事 ,而 这 些 subject 在 次 辑 上 又 都 是 以 “ 栈 ” 的 形式 串联 
在 一 起 的 。 

书 中 把 这 些 相关 的 技术 点 总 结 划分 为 三 个 区 间 (interval) ,这 一 点 我 也 是 经 过 深思 熟 虑 
并 与 作者 进行 过 探讨 的 。 信 息 技术 是 一 片 浩瀚 的 大 海 ,如 果 把 这 片 大 海里 射 到 一 个 坐标 四 
上 ,可 以 看 作 正 负 无 穷 的 无 限 区 间 。 在 这 片 大 区 间 中 ,我 们 仅仅 选取 了 比较 有 心得 ,同时 也 
与 我 们 从 事 的 领域 联系 比较 紧密 的 几 小 块 来 描述 。 这 几 个 区 间 是 有 overlap 的 ,但 更 多 的 是 
不 相交 的 interval, 同 时 也 是 finite interval。 这 几 个 区 间 分 别 描 述 了 ， 

> 操作 系统 的 Kernel 机 制 ,解决 怎样 支撑 软件 运行 的 问题 。 

> 系统 的 设备 驱动 机 制 , 指 述 了 操作 系统 和 外 围 设备 的 联系 与 互动 ,这 也 同样 支撑 了 软 

件 的 运行 。 
> 通信 协议 和 网 络 安全 ,这 是 与 开发 人 员 联 系 最 为 紧密 的 部 分 。 
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我 曾经 提出 过 软件 开发 的 “ 八 可 ”; 可 融合 、 可 对 接 、 可 扩展 、 可 分 层 、 可 堆 琶 、 可 调试 、 可 
发 布 和 可 监控 ,实践 证 明 这 是 符合 技术 趋势 的 。 而 实现 这 一 切 的 基础 和 保证 ,就 是 我 们 的 软 
件 协 议 栈 。 

作者 担任 软件 开发 的 架构 师 和 产品 总 工 多 年 ,曾经 参与 过 数 十 个 大 规模 视 联网 软件 的 
总 体 设计 和 系统 开发 ,同时 积极 探索 和 学 习 相 关 领 域 的 技术 ,积累 了 许多 切身 经 验 和 体会 ， 
也 非常 注重 分 享 与 传承 ,发 表 过 许多 论文 和 专利 。 今 天 ,他 将 这 些 经 验 和 体会 作为 积累 的 一 
部 分 系统 地 总 结 出 来 介绍 给 大 家 , 供 大 家 参考 。 这 也 是 我 第 一 次 看 到 在 一 本 书 中 如 此 明确 
地 提出 软件 生态 .平台 算 力 、 软 硬件 解 耦 和 软件 全 栈 链 的 思想 。 和 希望 本 书 能 为 软件 开发 者 提 
供 一 定 的 参考 和 启发 。 


曹 友 盛 
美国 超 算 中 心 超级 计算 科学 博士 后 
深圳 力 维 智联 CTO 
2020 年 1 月 


应 用 软件 技术 发 展 到 今天 ,从 功能 的 角度 来 说 越 来 越 专业 化 ,领域 越 来 越 细 分 ;从 架构 
上 来 说 越 来 越 分 层 化 和 解 辜 化 。 特 别 是 近 些 年 来 , 随 着 大 数据 、 云 计算 、 微 服务 等 技术 的 发 
展 ,应 用 软件 越 来 越 高 层 化 ,也 就 是 说 在 整个 软件 堆栈 中 居于 越 来 越 高 层 的 位 置 。 这 是 由 以 
下 几 方 面 的 原因 造成 的 : 

首先 ,计算 平台 越 来 越 通用 化 ,开发 者 越 来 越 不 需要 面向 不 同 的 处 理 器 架构 进行 编程 。 

其 次 ,操作 有 系统、 虚拟 机 软件 .容器 软件 等 软件 平台 念 发 成 熟 、 钝 发 全 能 化 、 愈 发 跨 平台 
化 ,使 开发 者 越 来 越 不 需要 考虑 操作 系统 的 实现 机 制 与 适 配 问 题 。 

再 次 ,诸多 开源 软件 对 于 通信 机 制 线程 管理 、 内 存 安全 、1/O 读 写 等 基础 功能 均 有 良好 
的 封装 ,使 开发 者 在 面 对 这 些 功能 时 无 需 再 考虑 复杂 的 同步 管理 机 制 。 

最 后 ,应 用 软件 的 许多 基础 设施 越 来 越 自 动 化 , 越 来 越 完善 ,使 应 用 软件 无 需 应 对 过 多 
业务 诉求 以 外 的 轴 绊 。 

以 上 这 几 方 面 的 原因 既是 软件 发 展 的 必然 之 势 , 也 是 技术 .架构 、 业 务 、 领 域 等 多 方面 解 
辜 和 深化 的 大 势 所 趋 ,为 开发 者 带 来 了 实 实在 在 的 实惠 和 便利 ,并 成 为 细 分 领域 应 用 软件 专 
业 化 使 能 的 源 动 力 。 

从 软件 堆栈 的 角度 来 看 ,应 用 软件 的 层次 和 位 置 越 来 越 高 ,并 且 也 迎 来 了 极 大 的 横向 扩 
展 。 如 果 把 软件 体系 比喻 为 一 棵 树 ,应 用 软件 就 像 开 枝 散 叶 的 枝 干 和 树叶 , 越 来 越 茂 盛 , 越 
来 越 细 分 ;而 位 居 应 用 软件 之 下 的 通信 框架 、 基 础 设施 ,操作 系统 甚至 计算 平台 却 越 来 越 归 
一 化 ,就 像 大 树 的 树干 越 来 越 粗 , 却 没有 “过 逸 斜 出 "。 

这 同时 也 带 来 了 一 个 问题 ,应 用 软件 的 开发 者 越 来 越 关注 业务 和 架构 , 越 来 越 多 地 使 用 
成 熟 的 框架 ,而 对 这 些 框架 是 怎么 实现 的 .设备 是 怎么 接 入 和 抽象 的 、 资 源 是 怎么 调度 和 分 
配 的 、 人 机 交互 是 怎么 实现 的 、 应 用 软件 的 生命 周期 是 怎么 管理 的 这 些 底层 和 深层 的 问题 蒜 
然 无 所 知 , 弃 不 感 兴趣 也 不 是 很 关注 ,更 有 一 种 “ 八 竺 子 打 不 着 ”的 距离 感 ,因为 关注 于 业务 
和 领域 的 应 用 软件 在 堆栈 中 离 这 些 底层 机 制 和 框架 越 来 越 远 了 。 

但 是 ,作为 应 用 软件 开发 者 ,对 这 些 成 熟 的 架构 和 机 制 ,我 们 不 能 仅仅 拘泥 于 “会 用 "和 
“好 用 ”, 满 足 于 “用 会 "和 “用 好 ”, 更 要 着 力 于 “用 懂 ” 和 “用 深 ”。 


Lesas y 


我 们 研究 一 个 软件 , 既 要 研究 其 上 层 实现 机 制 , 亦 要 研究 其 底层 技术 原理 ,同时 考虑 到 
与 外 部 交互 ,还 要 研究 通信 相关 的 技术 ,因而 不 外 乎 自 底 向 上 的 这 几 个 方面 :操作 系统 .通信 
技术 、 通 信 协 议 、 网 络 安全 、 上 层 业 务 。 这 就 需要 站 在 软件 堆栈 的 角度 把 事情 讲 得 明白 、 讲 得 
贯通 \ 讲 得 全 面 ,还 要 讲 得 有 一 定 的 深度 。 这 在 表面 上 看 是 “ 降 层 ”, 但 实际 上 是 “ 升 维 ”, 任 
何 高 层 的 原理 必须 依赖 于 底层 的 机 制 ,只 有 深刻 领悟 了 底层 的 机 制 ,才能 更 好 地 “ 玩 转 ”高 
层 。 底 层 的 往往 也 是 基础 的 ,基础 的 研究 可 能 在 短期 内 看 不 到 成 效 , 但 必然 会 在 潜移默化 中 
为 我 们 带 来 意 想不到 的 收益 。 而 从 技术 深耕 的 角度 来 说 ,我 们 也 应 该 有 这 个 理想 去 下 钻 更 
深层 的 原理 。 
本 书 按照 自 底 向 上 的 顺序 和 思路 ,对 软件 堆栈 中 的 各 层 做 了 梳理 ,并 借助 数学 中 实数 区 
间 (real number interval ) 的 概念 将 这 些 技术 分 为 三 个 有 限 区 间 (finite interval ) ,对 于 每 个 区 
间 ,都 有 一 定 的 主线 和 脉络 贯穿 其 中 。 区 间 之 间 有 一 定 的 重合 (overlap) ,而 在 区 间 之 外 则 是 
更 广阔 的 无 限 空 间 (infinite interval) ,代表 了 信息 技术 的 无 穷 延 展 。 
> 第 一 区 间 :描述 操作 系统 核心 机 制 , 并 以 线程 堆栈 的 动态 平衡 为 主线 来 分 析 这 些 核心 
机 制 。 

> 第 二 区 间 :讲述 操作 系统 外 转机 制 ,特别 是 操作 系统 的 驱动 框架 ,并 以 此 为 基础 分 析 
了 网 络 通信 文件 系统 等 IO 流程 和 操作 系统 安全 特性 。 

> 第 三 区 间 : 着 眼 于 通信 ,这 是 与 应 用 软件 联系 最 为 紧密 的 部 分 ,可 以 总 结 为 四 个 关键 
词 , 即 通信 模型 .通信 技术 .通信 协议 .通信 安全 。 

这 里 ,我们 也 提出 “全 栈 ” 的 思想 。 但 这 里 的 全 栈 不 是 什么 开发 语言 从 前 端 到 后 端的 
“全 栈 ” ,而 是 从 底层 平台 到 上 层 应 用 的 软件 堆栈 的 “全 栈 ”。 这 种 "全 栈 " 可 能 不 会 立即 为 我 
们 带 来 直接 的 收益 ,但 却 能 为 我 们 带 来 融会 贯通 的 醋 畅 感 和 了 然 于 胸 的 满足 感 。 

具体 到 软件 技术 这 个 我 们 熟悉 的 领域 , 它 的 一 日 二 里 . 它 的 梳 繁 叶 茂 、 它 的 步步高 升 使 
人 炫目 ,也 让 我 们 有 了 一 种 不 得 不 重新 审视 的 陌生 感 和 敬 上 情感 。 但 越 是 陌生 ,我 们 越 要 刨 根 
寻 底 ,于 千变万化 中 找寻 一 定之 规 ; 越 是 敬畏 ,我 们 越 要 追踪 溯源 ,于 枝 繁 叶 茂 中 找寻 不 变 
之 基 。 

本 书 命名 为 《应 用 软件 开发 协议 栈 》, 但 这 里 我 们 既 不 是 讲述 如 何 开 发 软件 也 不 是 仅仅 
描述 通信 协议 的 格式 , 既 不 是 讲 语法 也 不 是 讲 操 作 , 而 是 讲 内 核 机 理 , 讲 运行 过 程 ,这 些 原 理 
和 框架 可 以 被 称 作 "软件 开发 协议 ”, 而 “ 栈 ”" 也 契合 了 软件 开发 分 层 化 的 “ 扒 合 "思想 。 我 们 
认为 ,贯通 软件 堆栈 中 各 层 的 联系 才 是 打通 软件 开发 的 “ 任 督 二 脉 ” ,理解 每 一 层 框 架 的 运行 
机 制 才 是 软件 开发 的 “化 骨 绵 掌 ”。 因 此 读者 也 不 必 过 于 纠结 文中 诸如 函数 名 这 样 的 过 于 细 
节 的 内 容 。 

下 钻 也 许 是 艰难 痛苦 的 ,但 正如 人 们 常 说 的 ,做 难事 必 有 所 得 。 通 晓 了 底层 的 原理 , 必 
然 使 我 们 具备 高 屋 建 领 的 宏观 视野 ,而 这 需要 坚持 不 懈 的 努力 和 和 孜孜 以 求 的 定 力 。 

希望 本 书 能 为 应 用 软件 的 开发 ,特别 是 安防 和 物 联网 领域 的 软件 开发 做 出 有 益 的 贡献 。 

即使 是 产品 经 理 ,如果 能 从 底层 原理 来 看 符 应 用 软件 的 开发 则 必然 会 有 不 一 样 的 发 现 。 


这 种 以 协议 栈 为 观察 视角 、 以 框架 和 技术 为 思辩 逻辑 的 方法 论 也 是 调和 产品 经 理 与 程序 员 
之 间 “ 了 矛盾 ”加 强 彼此 "心灵 沟通 ”的 不 二 法 门 。 

感谢 力 维 智 联 徐 明 董事 长 曹 友 肪 博士 等 领导 对 我 的 极 大 支持 和 鼓励 ,他 们 对 行业 的 理 
解 . 对 技术 的 精 研 和 对 趋势 的 把 握 深 深 影 响 了 我 ,并 成 为 我 矢志 不 渝 的 动力 源 果 。 

最 后 ,感谢 我 的 家 人 ,特别 是 我 的 女儿 ,在 我 奋 笔 疾 书 的 时 候 没 有 怎么 打扰 我 , 顶 多 就 是 
让 我 陪 她 搭 乐高 ,真是 个 秒 巧 的 小 朋友 。 


2019 年 10 月 31 日 于 南京 
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第 (也 章 ”CPU 体系 结构 


CPU( Central Processing Unit) , 即 中 央 处 理 器 ,是 计算 机 最 核心 的 部 件 。 应 用 软件 需要 
操作 系统 来 承载 ,而 操作 系统 需要 CPU 、 主 存 .磁盘 等 便 件 来 承载 和 运行 ,CPU 是 “盘活 ” 整 
个 硬件 系统 的 大 脑 。 

本 章 将 按照 图 1-1 所 示 的 提纲 介绍 CPU 的 指令 集结 构 .体系 结构 .存储 结构 等 内 容 。 


X86/X64/ARM 等 CPU 架 构 
本 
- 精简 指令 集 计算 机 ( RISC ) 架构 
[| TEL 
/ 1 复杂 指令 集 计算 机 ( CISC ) 架构 
CPU 指 令 集 架构 (ISA ) -| 精 殉 并 行 措 令 集运 入 ( EPIC ) 架构 


超 长 指令 字 指 令 集 运算 ( VUW ) 架构 


统一 内 存 存 取 ( UMA ) 架构 
CPU 多 核 体系 架构 = 
四 人 非 和 统一 内 存 存 取 ( NUMA ) 架构 


CPU 众 核 体 系 架 构 


“CPU 体系 结构 _ 全 关联 型 Cache 
一 上 “直接 关联 型 Cache 


Cache 宙 制 “| 给 关联 型 Cache 


| 
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1-1 本 章 提纲 
在 讲述 CPU 体系 结构 之 前 ,我们 先 来 看 看 CPU 的 相关 技术 和 概念 。 


1.1 相关 技术 和 概念 


微 码 :microcode ,一 般 CPU 对 于 指令 的 操作 可 分 解 为 取 指 .解码 和 执行 。 在 解码 阶段 ,对 
于 长 短 不 一 致 的 复杂 指令 集 (CISC) 一 般 分解 为 右 干 条 长 度 一 致 的 更 精简 的 指令 ,以 便于 加 快 
解 但 速度 和 提高 并 行 性 ,这 些 指 令 被 称 为 微 但 。 通 稼 我 们 所 说 的 对 CPU“ 打 补丁 ”大 多 也 是 对 
微 码 " 打 补 本 。 微 码 在 计算 机 语言 堆栈 中 处 于 最 下 层 ( 汇 编 指 令 的 下 一 层 ) ,如 图 1 一 2 所 示 。 

多 核 技术 :CMP( Chip Multi Processors ) 技术, 也 称 为 单 蕊 片 多 处 理 帮 /片上 多 处理 各 技 
术 , 即 在 同一 个 芯片 上 集成 多 个 核心 (Core) ,这 些 核心 单元 负责 运算 .接收 和 存储 命令 .处 理 
数据 等 工作 。 核 心 单元 除了 日 己 固有 的 逻辑 结构 外 ,还 包括 执行 单元 EU 一 级 Cache 二 级 
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C#i 吾 豆 Javai 语 言 其 他 脚本 语言 


CC 语言 | [met 碟 拟 机 器 指令 集 ||[ JVM 虚 所 机 器 指令 集 || | 私有 虚拟 机 器 指令 集 


C# 庶 招 机 Java 庶 所 机 脚本 语言 虚拟 机 
汇 纲 语言 /机 器 码 
| 


1-2 计算 机 语言 堆栈 结构 


Cache .总 线 接口 等 。 

众 核 技术 :拥有 多 于 8 个 核心 的 CPU 称 为 众 核 。 

多 路 技术 :在 同一 个 主板 上 集成 多 个 CPU 处 理 顺 的 技术 。 一 般 家 用 台式 计算 机 /笔记 
本 计算 机 都 采用 多 核 单 CPU ,多 路 技术 凋 见 于 服务 做/ 小 型 机 系统 。 这 里 要 注意 区 分 多 核心 
与 多 CPU 的 概念 ,一 个 CPU 可 以 包含 多 个 核心 ,这 被 称 为 多 核 。 

向 量化 技术 :使 用 同一 条 指令 同时 操作 多 个 数据 的 拉 术 。 当 然 ,使 用 同 量 化 技术 需要 应 
用 程序 采用 并 行 化 代码 编写 。 

STIMD :Single Instruction Multiple Data , 即 单 指令 多 数据 流 。 这 是 一 种 对 一 组 数据 (数据 
器 量 ) 中 的 每 一 个 分 别 执 行 相同 的 操作 从 而 实现 空间 并 行 性 的 技术 ,常见 于 CPU( Graphics 
Processing Unit , 图形 处 理 单元 ) 计 算 中 ,如 图 1-3 所 示 。SIMD 要 求 数据 统一 输入 输出 ,其 指 
令 操 作 寄 存 带 相对 于 通用 寄存 融 而 言 锅 度 更 贸 。 


X4 op Y4 X30p Y3 X2 op Y2 Xl opYl 


图 1-3 SIMD 操作 


SMP :Symmetric Multi Processor , 即 对 称 多 处理 占 。 这 种 架构 下 各 CPU 之 间 共 享 内 存 子 
系统 以 及 总 线 结构 ,每 一 个 点 访问 内 存 的 速度 和 距离 是 一 样 的 ,CPU 地 位 对 等 ,“ 对 称 ” 之 名 
由 此 而 得 。SMP 架构 也 被 称 为 统一 内 存 存 取 (Uniform Memory Access,UMA ) 架构 。 采 用 
SMP 架构 的 CPU 核心 之 间 的 缓存 数据 同步 是 由 操作 系统 完成 的 。 

NUMA :None Uniform Memory Access ， 即 非 统一 内 存 存 取 。 这 种 架构 下 CPU 有 远近 之 
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分 ,访问 内 存 的 速度 和 距离 不 一 致 。 

MPP : Massive Parallel Processing , 即 海量 并 行 处 理 。 这 是 一 种 系统 外 扩展 ( 非 CPU 中 扩 
展 ) 的 技术 手段 , 即 多 个 SMP 服务 融通 过 一 定 的 节点 互联 网 络 进行 连接 ,分 布 式 协同 工作 ， 
完成 相同 的 任务 ,但 从 用 户 的 角度 来 看 这 是 一 个 服务 硕 系 统 ,拥有 统一 的 计算 人 口 。 

AMP/7 异 构 计算 :Asymmetric Multi Processor, 即 非 对称 多 处 理 器 ,例如 超 算 。 在 这 种 架构 
下 采用 GPU 或 者 FPGA( Field Programmable Gate Array , 现场 可 编程 门 阵列 ) 作为 协 处 理 器 ， 
CPU 作为 通用 计算 单元 并 总 体 协 调 各 异 构 处 理 硕 ,负责 回 这 些 协 处 理 需 “ 咀 " 数 据 或 者 协调 
它们 统一 工作 ,CPU 既是 协 处 理 硕 的 供给 侧 ,也 是 协 处 理 硕 的 消费 侧 。 

超 线程 技术 :Hyper-Threading Technology ,是 Intel 为 了 更 好 地 利用 CPU 资源 而 提出 的 一 
项 技术 。 超 线程 技术 的 学 名 叫 同步 多 线程 (Simulate Multi Threading,SMT ) 技术 , 即 在 每 个 
CPU 的 物理 核 上 虚拟 出 多 个 逻辑 核 ,每 个 逻辑 核 有 日 己 的 CPU 状态 ,但 是 运 自 单 元 和 片上 
系统 (System-on-a-Chip ) 绥 存 是 共享 的 。 在 CPU 中 ,运算 处 理 单元 ( Processing Unit,PU ) 负责 
庄 如 加 减 瑟 际 这 样 的 运算 执行 功能 ; 淋 构 状态 (Architectural State, AS ) 单元 负责 执行 逻辑 和 
调度 方面 的 操作 ,比如 控制 内 存 访问 等 。 超 线程 技术 就 是 通过 AS 单元 模拟 出 逻辑 核 的 ,是 
对 CPU 核 的 虚拟 化 。 

假如 一 个 CPU 有 4 个 物理 Core ,每 个 Core 有 两 个 HT( Hyper Thread) ,从 操作 系统 角度 
来 看 ,每 个 超 线程 都 是 一 个 逻辑 核 ,因此 一 共有 8 个 逻辑 CPU。 图 1 -4 所 示 的 就 是 单个 双 
核 处 理 咒 使 用 超 线程 技术 后 的 情况 (双核 心 四 线程 ) 。 一 个 物理 Core 中 一 般 有 两 个 AS 和 一 
个 PU ,这 两 个 AS 共享 一 个 PU。AS 与 PU 的 关系 就 像 饭店 服务 员 与 大 厨 ,就 是 徘 这 种 “多 个 
服务 员 围 着 一 个 大 厨 转 ” 的 机 制 ,使 大 厨 “ 满 负 衙 运行 ”。 

乱 序 执行 技术 :Out of Order Execution , 即 CPU 不 按照 指令 的 顺序 执行 ,而 是 在 执行 当前 
指令 时 将 可 以 提前 执行 的 指令 也 放 人 执行 单元 执行 ,以 加 快 指令 运行 速度 。 

三 级 Cache( 缓存 ) :CPU 采用 三 级 缓存 机 制 来 平衡 计算 速度 (CPU ) 与 存储 速度 (内 存 ) 
的 巨大 差距 。Cache 的 读 写 速度 远 快 于 内 存 , 但 是 要 比 寄 存 顺 存 取 慢 。 其 中 第 一 级 Cache 又 
分 为 指令 缓 仔 (LCache) 和 数据 缓存 (D-Cache) ,第 二 级 Cache 不 分 指令 缓存 和 数据 缓存 ,第 
三 级 缓存 则 为 所 有 CPU 共享 。 上 述 三 级 缓存 与 CPU 人 逻辑 核心 的 关系 如 图 1 一 4 所 示 。 
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恒 1-4 一 个 双 物 理 核 双 超 线程 CPU 的 三 级 缓存 示意 图 
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之 所 以 要 分 成 [-Cache 和 D-Cache ,是 因为 LCache 大 多 都 是 顺序 取 指 ,而 D-Cache 的 访 
问 模 式 变 化 却 比 较 大 。 此 外 D-Cache 包括 了 读 写 两 方面 的 操作 ,而 I-Cache 则 只 有 该 操作 ， 
因此 将 这 两 类 缓存 分 开 以 避免 互相 干扰 。 

RAM .Random Access Memory , 即 随 机 访问 存储 兹 ,多 用 于 主 存 。 

SRAM :Static Random Access Memory , 即 静态 随机 访问 存储 融 , 存 取 速 度 非 常 快 , 通 和 并 用 
于 处 理 带 内 部 的 Cache ,其 内 部 有 一 块 攻 户 以 维持 信息 。 

DRAM:Dynamic Random Access Memory, 即 动 态 随 机 访问 存储 锅 , 目前 该 技术 已 被 

SDRAM :Synchronous Dynamic Random Access Memory ,同步 动态 随机 访问 存储 需 ,用 于 
主 存 , 基 于 同步 时 钟 进行 同步 ,及 用 SDRAM 结构 的 系统 处 理 带 和 内 存 共 盏 一 个 时 钟 周期 , 工 
作 速 度 同 步 。 目 前 该 技术 逐渐 被 DDR 技术 取代 。 

DDR : 双 数 据 速率 SDRAM( Double Data Rate SDRAM) ,是 SDRAM 的 升级 版 本 ,用 于 主 
存 , 目 前 已 经 发 展 到 DDR4( 第 四 代 DDR ) 。 

总 线 : 总 线 用 于 内 存 .TO 设备 与 CPU 之 间 的 数据 传输 ,内 存 与 VO 设备 共享 这 条 信道 。 
旧 一 点 的 CPU 采用 前 端 总 线 (Front Side Bus ,FSB ) 技术, 但 是 新 一 代 的 Intel 处 理 器 已 经 内 置 
了 内 存 控制 器 ,因此 需要 把 前 端 总 线 的 功能 一 分 为 二 ,一 条 分 通道 连接 CPU 与 内 存 , 另 一 条 
分 通道 连接 CPU 与 VO 设备 ,前 者 称 为 内 存 总 线 ,后 者 称 为 快速 通道 互联 (Quick Path 
Interconnect ,OPI ) 。 

CPU 杀 和 性 :CPU Affinity ,这 是 一 种 调度 属性 , 它 可 以 将 一 个 线程 绑 定 "到 一 个 或 一 组 
CPU 上 。CPU 与 线程 绑 定 有 以 下 好 处 : 

三 可 以 提高 Cache 的 命中 率 以 减少 内 存 访问 损耗 ; 

> 可 以 减少 线程 切换 市 来 的 上 下 文 切 换 开 销 (单方 面 纯 定 线程 导 CPU 还 不 够 ,还 应 将 

CPU 从 其 他 CPU 的 调度 队列 中 移 除 ) ; 

> 可 以 提高 线程 运行 的 实时 性 ,使 之 一 直 运 行 而 不 被 调度 到 线程 就 绪 队 列 。 

流水 线 技术 :流水 线 通 稼 由 取 指 . 译 但 执行 以 及 Load/Store 等 单元 组 成 ,流水 线 技 术 是 
一 种 将 每 条 指令 分 解 为 多 步 ( 取 指 . 译 码 等 ) 并 使 各 步 操 作 重 三 ,从 而 实现 几 条 指令 并 行 处 理 
的 技术 ,如 图 1 -5 所 示 。 程 序 中 的 指令 仍 是 一 条 条 地 顺序 执行 ,但 可 以 预先 取 在 干 条 指令 ， 
并 在 当前 指令 尚未 执行 完 时 ,提前 局 动 后 续 指 令 的 为 一 些 操 作 步 又 。 流 水 线 技术 一 般 是 通 
过 增加 计算 机 硬件 来 实现 的 ,例如 预 取 指令 的 电路 等 。 


图 1-S 流水 线 执 行 操 作 


seasas y 


超级 流水 线 技术 :超级 流水 线 以 增加 流水 线 级 数 的 方法 来 缩短 执行 周期 ,相同 的 时 间 内 
超级 流水 线 执行 了 更 多 的 机 需 指 令 。 超 级 流水 线 配置 了 多 个 功能 部 件 和 指令 译 码 电路 , 采 
多 条 流水 线 并 行 处 理 , 并 具有 多 个 寄存 器 端口 和 总 线 , 可 以 同时 执行 多 个 操作 ,因此 比 普 
通 流水 线 执行 得 更 快 ,在 一 个 机 屁 周 期 内 可 以 流出 多 条 指令 。 

超级 流水 线 技术 是 通过 细 化 流水 .提高 主 频 ,使 得 在 一 个 机 硕 周 期 内 完成 一 个 甚至 多 个 
操作 实现 的 ,其 实质 是 以 时 间 换 取 空 间 。 

超标 量 技术 :超标 量 (superscalar) 技术 是 指 在 CPU 中 有 一 条 以 上 的 流水 线 , 每 个 时 钟 周 
期 内 可 以 完成 一 条 以 上 指令 的 技术 ,如 图 1 -6 所 示 。 超 标量 技术 的 实质 是 以 空间 换取 
时 间 。 


1 2 3 4 5 6 7 8 9 ， 10 ”11 ，12 ， 时 间 序 列 


1-6 超标 量 执行 操作 


1.2 微 处 理 希 指令 集 架 构 


精简 指令 集 计 算 机 (Reduced Instruction Set Computer, RISC ) 和 复杂 指令 集 计 算 机 
( Complex Instruction Set Computer ,CISC) 是 CPU 最 常见 的 设计 模式 ,而 CPU 的 设计 模式 也 被 
称 作 微 处 理 需 的 指令 集 架 构 (Instruction Set Architecture ,ISA) 。 简 单 地 理解 ,ISA 就 是 一 个 
抽象 的 机 徊 架构 ,这 个 抽象 的 染 构 解 看 了 编程 所 害 要 的 软件 和 人 硬件 体系 ,如 此 一 来 ,CPU 也 
就 演变 成 了 由 指令 集 、 微 结构 和 物理 设备 组 成 的 三 层 结构 。 除 了 RISC 和 CISC ,ISA 还 包括 
精确 并 行 指 令 集 运算 (Explicitly Parallel Instruction Code,EPIC ) 和 超 长 指令 字 指 令 集 运算 
(Very Long Instruction Word,VLIW ) 两 个 种 类 ,它们 主要 针对 64 位 处 理 硕 。 

顾名思义 ,所谓 精简 指令 集 ,其 指令 数目 和 寻 址 方式 都 做 了 精简 ,使 其 实现 更 容易 ,所 有 
指令 的 格式 都 是 一 致 的 ,所 有 指令 的 指令 周期 也 相同 ,指令 并 行 执行 程度 更 好 ,编译 硕 的 效 
率 更 高 ,因而 更 适合 诸如 IO 并 发 量 大 .需要 并 行 处 理 的 应 用 场景 ;而 复杂 指令 集 是 为 了 方 
便 软 件 编程 和 提高 程序 运行 速度 而 来 取 的 不 断 增 加 实现 了 复杂 功能 的 指令 和 多 种 灵活 的 编 
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址 方式 的 设计 模式 ,甚至 革 些 指令 可 支持 高 级 语言 语句 归 类 后 的 复杂 操作 ,比较 适合 通用 计 
算 的 应 用 场景 。 

精简 指令 集 执行 的 都 是 等 长 的 指令 ,因此 执行 效率 较 高 ,性 能 也 比较 稳定 ,基于 RISC 的 
CPU 工艺 也 相对 简单 ;而 复杂 指令 集 的 指令 不 等 长 ,执行 时 需要 进行 识别 和 分 割 ,因此 执行 
效率 没有 RISC 高 , 且 基 于 CISC 的 CPU 工艺 较为 复杂 ,部件 比较 多 。 两 种 指令 集 的 区 别 如 
表 1-1 所 示 。 

表 1-1 复杂 指令 集 与 精简 指令 集 的 比较 
指令 系统 复杂 庞大 简单 精简 


可 访 存 指令 不 加 限制 只 有 取 数 / 存 数 指令 


各 种 指令 使 用 频率 


各 种 指令 执行 时 间 
控制 右 实 现 方 式 
软件 系统 开发 时 间 


Windows 目前 支持 CISC 体系 结构 的 CPU ,包括 X86 和 X64 这 两 种 类 型 。 其 中 ,X86(1IA- 
32 , Intel Architecture 32 ,也 被 称 为 X86-32 ) 架构 是 Intel 和 AMD 的 32 位 CPU 的 统一 架构 。 
说 是 架构 ,其实 是 一 套 指令 集 和 配套 的 寄存 需 结 构 ,也 就 是 说 CPU 对 这 个 体系 架构 的 指令 
集 是 “可 认 知 ”的 。 

X64( X86-64 ) 的 男 一 个 叫 法 是 AMD64 ,这 是 一 种 采用 VLIW 指令 集 设 计 的 处 理 需 体系 。 
X86 和 X64 的 主要 区 别 还 是 操作 系统 位 数 的 区 别 (32 位 还 是 64 位 )。 沿 着 这 种 思路 CPU 的 
设计 就 有 两 条 路 线 可 以 选择 :要 么 设计 一 套 完 全 兼容 X86 体系 的 CPU 架构 ,要 么 设计 一 套 
完全 不 兼容 X86 的 新 的 体系 架构 。AMD 首先 设计 出 了 兼容 X86 的 体系 结构 ,并 命名 为 
AMD64 ,而 后 Intel 也 设计 出 了 不 兼容 X86 的 全 新 体系 结构 ,命名 为 IA-64 ,其 采用 的 是 EPIC 
指令 集 架 构 。 看 起 来 当然 还 是 兼容 X86 的 体系 结构 比较 受 欢 迎 。 可 能 后 来 Intel 也 回 过 味 
儿 来 了 ,也 开始 文 持 AMD64 体系 结构 ,并 命名 为 X64 ,这 束 是 X64 的 由 来 。X64 不 但 扩展 了 
新 的 指令 集 ,寄存 需 数 量 也 大 大 增加 ,并 且 通 用 寄存 需 的 位 数 从 32 位 扩展 到 了 64 位 (Itel 
和 AMD 之 间 存 在 交叉 专利 授权 ,你 可 以 用 我 的 专利 技术 ,我 也 可 以 用 你 的 专利 技术 ,大 家 重 
要 程度 等 同 , 离 了 谁 也 活 不 了 ,因此 Intel 可 以 使 用 AMD64 架构 ,但 是 X64 与 AMD64 在 指令 
方面 有 细微 的 差别 ,这 里 暂时 忽略 ) 。 


应 用 软件 开发 协议 栈 LI 


而 IA-64( 安 腾 处 理 器 架构 ) 其实 是 Intel 与 惠普 联合 开发 的 架构 ,采用 的 是 EPIC 指令 集 
染 构 ,这 种 架构 脱胎 于 VLIW ,更 侦 癌 于 RISC 体系 结构 ,并 且 只 适用 于 Intel 的 安 腾 
系列 处 理 器 ,与 X86 指令 集 不 兼容 。 安 腾 处 理 絮 是 较为 高 端的 处 理 絮 ,在 普通 的 商用 服务 咒 
市 场 并 不 多 见 。IA-64 架构 提供 了 128 个 整数 寄存 器 、128 个 浮 点 寄存 絮 、64 个 单 比特 预测 
器 和 8 个 分 支 寄存 器 ,其 中 浮 点 寄存 器 长 度 为 82bit, 因 此 也 具有 较 强 的 浮 点 运算 性 能 。 可 以 
看 出 ,IA-64 架构 仅仅 在 处 理 器 上 就 比 X64 要 多 出 许多 ,其 性 能 和 定位 也 都 因此 更 加 高 端 。 

其 实 无 论 是 Intel 还 是 AMD ,现代 CPU 本 质 上 都 是 精简 指令 集 架构 的 。 原 因 就 是 复杂 
指令 集 的 处 理 器 在 其 核心 外 围 电路 中 会 将 复杂 指令 翻译 成 精简 指令 ,然后 送 到 精简 指令 核 
心中 处 理 。 当 然 ,习惯 上 我 们 还 是 把 X86 架构 的 处 理 侣 看 作 CISC 架构 的 。 那 么 什么 样 的 
CPU 是 下 接 采 用 精简 指令 集 染 构 呢 ?我 们 看 图 1 一 7。 


IBM 的 POWER/PowerPC 架 构 ( Power G5、Power G6、 
PowerXCell 等 ) 


MIPS 的 MIPS 架 构 ( 多 家 厂商 ， 包 括 AMD 也 获 授权 生产 ， 龙芯 也 
| 是 MIPS 变 种 ) 


SUN 的 UltraSPARC 架 构 ( UltraSPARC 王 、UltraSPARC IV 等 ) 


汪汪 革 ” DEC 的 Alpha 架 构 (现今 少见 ， DEC 被 Compaq 收 购 ，Compaq 又 
”被 HP 收购 ) 


Acorn 的 ARM 架 构 ( 类 似 于 MIPS 也 授权 多 家 公司 制造 ， 包 括 
”Intel ) ， 后 来 Intel 还 开发 出 ARM 的 变种 XScale 架构 


图 1-7 RISC 架构 处 理 器 分 类 


精 何 指令 集 一 般 有 具有 以 下 特点 : 

> 流水 线 及 篆 用 指令 可 以 用 便 件 执行 ; 

> 大 部 分 指令 利用 寄存 硕 缓 存 , 速 度 快 ; 

> 和 存 / 取 数据 的 指令 分 开 执行 ,处 理 融 可 以 完成 更 多 工作 。 

由 图 1 一 7 可知, 类似 PowerPC .MIPS (Microprocessor without Interlocked Piped Stases , 无 
内 部 互 锁 流水 级 的 微 处 理 髓 ) .ARM( Advanced RISC Machines ,高 级 精简 指令 集 机 此 ) 等 架构 
的 处 理 需 是 采用 精简 指令 集 的 。 而 这 些 处 理 顺 架构 也 多 用 于 工控 设备 . 物 联 网 设备 以 及 移 
动 端 ,例如 ARM 架构 更 适合 低 功 耗 设 备 的 计算 任务 , 晶 为 了 进一步 降低 功 耗 , ARM 采用 了 
大 小 核 兼 容 的 设计 思路 ,大 核心 蜗 性 能 高 功 耗 ,小 核心 低 性 能 低 功 耗 。 男 外 ,ARM 架构 比较 
单纯 ,里 容易 与 异 构 处 理 硕 (GPU 、FPGA 等 ) 通 过 SoC 的 方式 整合 在 一 起 。 

由 于 ARM 架构 处 理 帮 市 能 的 特点 , 它 非 常 适 用 于 移动 通信 领域。 飞腾 系列 处 理 玫 
FT2000AFT2000 + 也 是 基 于 ARM 架构 的 ,虽然 在 单 核 性 能 上 与 Intel 相 比 还 有 不 小 差距 ,但 
在 多 核 性 能 上 已 经 逐渐 仍 平 Intel 同 级 产品 ,在 军事 和 超 算 领 域 有 看 广泛 应 用 ,而 且 也 是 国 
内 自 球 日 主 可 探 的 CPU。PowerPC 处 理 融 同样 具有 优异 的 性 能 和 较 低 的 能 耗 .散热 量 , 其 多 
用 于 航 入 式 设 备 的 中 央 人 处理 熏 。 

ARM 采用 知识 产权 (Intellectual Property , 卫 ) 授权 的 模式 ,收取 一 次 性 技术 授权 费用 和 
版 税 。 总 体 来 讲 有 三 种 具体 方式 :处 理 需 授权 .POP( Processor Optimization Pack , 处 理 硕 优化 


( Itanium ) 
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包 ) 授 权 和 如 构 授权 。 处 理 咒 授权 方式 是 指 授权 合作 厂商 使 用 ARM 设计 好 的 处 理 需 ,对 方 
不 能 改变 原 有 设计 ,但 可 以 根据 自己 的 需要 调整 产品 的 频率 . 功 耗 等 。POP 授权 是 指 ARM 
出 售 优化 后 的 处 理 器 给 授权 合作 厂商 ,方便 其 在 特定 工艺 下 设计 .生产 出 性 能 有 保证 的 处 理 
佛 , 这 是 一 种 更 高 级 的 授权 方式 。 架 构 授 权 是 指 ARM 会 授权 合作 厂商 使 用 自己 的 架构 , 方 
便 其 根据 自己 的 需要 来 设计 处 理 需 ,这 是 最 高 级 的 授权 方式 。 目 前 ARM 对 高 通 , 苹 果 ,华为 
和 NVIDIA 开放 了 架构 授权 。 

不 过 除了 ARM 之 外 ,其 他 的 架构 者 不 能 直接 支 持 Windows 操作 系统 的 高 阶 和 版 本 ,而 且 
包括 诸如 编译 器 .调试 锅 .应 用 软件 等 在 内 的 生态 系统 远 不 如 X86 和 ARM 健壮 ,我 们 在 这 里 
不 进行 过 多 描述 。 


1.3 UMA 与 NUMA 架构 


在 多 路 技术 体系 中 ,按照 内 存 的 存 取 距离 来 分 存在 UMA(SMP) 和 NUMA 两 种 染 构 。 


UMA 架构 , 即 统一 内 存 存 取 架构 ( Uniform 
Memory Access Architecture ) ,在 一 些 资 料 中 也 称 为 


SMP( 对 称 多 处 理 帮 ) 架构 。 在 这 种 架构 下 ,各 CPU 


地 位 均等 ,访问 内 存 的 速度 也 一 致 ,通过 一 条 系统 系统 总 委 
die 内 存 控制 器 IO 控制 器 
Es 下 这 加 了 


有 限 的 ,因为 共享 的 总 线 频率 是 有 限 的 ,市 宽 是 有 
限 的 ,CPU 多 ,内 存 等 资源 的 访问 就 会 冲突 ,反而 浪 . 

费 了 CPU 资源 。 实 验 表 明 ,UMA 架构 配置 2~4 个 

CPU 时 资源 利用 率 最 高 。UMA 架构 如 图 1 一 8 人 

所 示 。 

NUMA 架构 , 即 非 统一 内 存 存 取 架 构 ( Non Uniform Memory Access Architecture ) , 起源 于 
AMD 的 Opteron 架构 , 它 是 为 了 解决 UMA 的 扩展 性 问题 而 提出 的 一 种 架构 。 在 这 种 染 构 
下 ,CPU 访问 内 存 有 远近 之 分 ,因此 访问 速度 是 不 一 样 的 。 但 是 NUMA 架构 的 扩展 性 很 好 ， 
上 百 个 CPU 可 以 在 NUMA 架构 下 组 合 在 一 起 ,中 间 通 过 高 速 交换 矩阵 通信 。NUMA 架构 如 
图 1 -9 所 示 。 


| | 
I | 
I 内 存 | 内 存 
| 
内 存 


1-9 NUMA 架构 示意 图 


easas > 


在 图 1 -9 中 每 个 CPU 的 内 存 合 起 来 构成 了 物理 内 存 空间 的 全 部 , 且 每 块 内 存 对 于 CPU 
部 是 可 以 耳 接 寻 址 访问 的 。CPU 访问 本 地 内 存 (虚线 框 中 所 示 ) 是 非常 快 的 ,但 因为 各 CPU 
之 间 要 通过 系统 总 线 或 者 其 他 高 速 交 换 结 构 通 信 , 因 此 访问 远 疹 的 内 存 就 没有 那么 快 了 。 
在 进行 软件 开发 的 时 候 ,也 应 尽量 避免 访问 远 端 内 存 , 例 如 可 以 通过 指定 CPU 亲 和 人 性 的 方 
式 绑 定 线程 与 CPU。NUMA 虽然 一 定 程度 上 解决 了 UMA 架构 的 扩展 性 问题 ,但 是 其 性 能 却 
不 是 随 着 CPU 数量 的 增加 而 线性 提高 的 ,这 主要 还 是 因为 对 于 远 端 内 存 的 访问 开销 较 大 。 

无 论 是 UMA 还 是 NUMA 染 构 ,都 需要 操作 系统 对 此 进行 支持 ,包括 处 理 带 间 通 信和 处理 
佛 核 心 之 间 通 信和 同步 等 。 男 外 ,总 线 技术 也 伴随 着 CPU 的 发 展 而 发 展 。 例 如 Intel 提出 的 
QPI( 快 速 通道 互联 ) 总 线 较 好 地 解决 了 多 处 理 右 之 间 互 联 的 问题 。QPI 技术 握 弃 了 通过 前 
并 总 线 连接 到 北桥 的 思想 , 转 而 通过 基于 包 传 输 的 串 行 式 高 速 连接 协议 耳 接 进行 CPU 间 的 
点 对 点 连接 ,具有 很 高 的 交换 速度 。 

我 们 有 时 也 把 MPP( 海 量 并 行 处 理 ) 看 作 多 路 体系 下 的 一 种 技术 架构 。MPP 架构 各 个 
节点 之 间 通 过 网 络 进行 互联 ,每 个 节点 的 处 理 需 一 般 是 UMA 架构 ,是 本 地 节点 的 CPU 不 能 
和 直接 访问 远 端 节点 的 内 存 , 它 们 之 间 的 数据 共 至 要 通过 上 层 软件 实现 。MPP 架构 更 为 宏观 ， 
与 UMA/NUMA 在 一 块 板子 上 进行 CPU 扩展 的 方式 不 同 , MPP 看 眼 于 服务 占 的 并 联 扩展 , 通 
过 软件 机 制 平 衡 计算 负载 。 


1.4 众 核 体系 架构 


无 论 是 SMPZUMA 还 是 NUMA ,都 是 多 路 技术 条 件 下 的 架构 。 前 文 说 过 ,所 谓 多 路 是 指 
一 个 主板 上 集成 了 多 个 CPU ,因此 才 会 存在 CPU 访问 内 存 的 不 对 等 性 。 多 路 技术 一 般 用 在 
服务 器 或 者 小 型 机 系统 中 ,如 果 操 作 系统 调度 不 好 ,很 可 能 会 出 现 图 1 -10 那样 的 情况 (多 
人 围观 一 人 干 活 )。 


图 1-10 多 路 架构 下 负载 不 均衡 的 情况 (图 片 来 自 CSDN ) 
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相对 而 言 ,多 核 单 CPU 在 解决 负载 均衡 问题 上 确实 要 好 于 单 核 多 CPU ,毕竟 CPU 内 部 
的 核心 通信 效率 很 高 , 主 存 也 可 以 共享 。 众 核 技 术 是 在 一 个 CPU 中 包含 了 多 个 核心 的 技 
术 。 与 多 核 不 同 , 众 核 一 般 指 CPU 中 集成 了 8 个 以 上 的 核心 ,因此 也 叫 作 Network on Chip 
(NoC, 订 上 网 络 )。 众 核 技 术 多 用 于 专用 场景 ,比如 防火 墙 \ 流 人 处理、 视频 处 理 等 ,在 大 数据 
分 析 中 也 很 有 应 用 潜力 。 

多 核 拉 术 一 般 采 用 片上 网 络 / 厂 内 总 线 的 方式 互联 各 个 核心 ,而 众 核 一 般 采 用 2D Full 
Mesh 网 络 来 连接 这 些 CPU 核心 ,如 图 1 一 11 所 示 。 后 者 的 路 由 是 静态 的 ,每 个 核心 都 有 个 
ID( 其 他 组 件 也 有 了 D) ,并 且 DD 与 位 置 都 是 固定 的 ,因此 点 对 点 之 间 的 路 径 也 是 固定 的 , 核 
间 通 信 时 带 上 目标 核心 的 ID 即 可 直接 到 达 。 


1 一 11 2D Full Mesh 网 络 组 网 示意 图 


众 核 的 任务 调度 可 分 为 对 称 式 同 构 协 作 和 非 对 称 式 异 构 协 作 两 种 方式 。 

> 对 称 式 同 构 协 作 : 将 待 处 理 的 任务 分 成 多 个 切片 ,控制 程序 将 这 些 切 片 推送 到 队列 
中 ,各 个 核心 从 队列 中 提取 切片 任务 执行 ,执行 完成 后 控制 程序 统一 汇总 输出 结 3 
这 种 方式 要 求 各 个 切片 任务 之 间 没 有 依赖 关系 。 

> 非 对 称 式 异 构 协 作 : 要 求 每 个 核心 处 理 不 同 数据 的 同一 个 工序 , 即 流 水 线 方式 ,与 单 
指令 多 数据 流 (SIMD ) 技术 类 似 。 比 如 防火 才 的 网 络 包 处 理 严 NP(Network 
Processor) ,每 个 工序 只 处 理 网 络 包 协议 栈 的 其 中 一 层 , 每 个 核心 处 理 不 同 网 络 包 的 
同一 个 工序 。 


1.5 ”CPU 缓存 机 制 


1.5.1 Cache 机 制 


Cache 就 是 CPU 的 缓存 。 对 于 CPU 来 说 ,虽然 DDR 技术 的 出 现 使 得 主 存 的 存 取 速率 大 
大 加 快 ,但 对 于 同样 也 在 不 断 以 指数 级 提速 的 CPU 来 说 仍然 是 太 慢 了 ,这 一 快 一 慢 会 使 存 
取 过 程 中 CPU 处 于 忙 等 状态 。Cache 的 出 现 就 是 为 了 弥补 CPU 与 主 存 之 间 的 读 写 速度 的 差 
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距 , 在 中 间 做 一 个 时 间 与 空间 的 折 中 。 那 为 啥 不 用 寄存 大? 这 是 由 于 寄存 货 虽 然 快 ,但 毕 
容量 大 小 上 且 价格 太 昂 贯 。 而 Cache 的 容量 远大 于 寄存 硕 ,速度 不 是 太 慢 价格 也 不 是 站， 
因此 就 成 了 唯一 选项 。 

前 文 讲 过 ,CPU 的 Cache 一 般 分 为 三 级 ,其 中 第 一 与 第 二 级 (LI 、L2) 组 人 存 是 集成 到 物理 
核心 内 部 的 ,第 三 级 (L3 ) 缓存 则 一 般 放 在 物理 核心 之 外 。 在 整个 存储 系统 的 体系 结构 里 ， 
寄存 天 的 存 取 速度 无 疑 是 最 快 的 ， 人 Ll 4 小 三 的 速度 次 之 ， 容量 大 约 有 几 十 千 字 
3;L2 缓存 的 速度 义 次 之 ,容量 大 约 有 几 百 干 学 广 ;13 缓存 的 容量 最 大 ,一 般 有 数 十 兆 子 市 
但 速度 也 最 慢 , 参 见 图 1 -12。 


{A 3 _ Ee 
-A CPU 寄 存 器 保存 取 自 高 束 组 丰 
(每 字 节 ) 1 1 人 芯片 上 的 L1 存储 器 的 字 
更 贵 的 /局 速 缓存 (SRAMN “| Ll 高 速 绥 存 保存 取 自 L2 高 速 绥 
存储 设备 ee 芯片 外 的 L2 人 存 的 噩 速 缓存 行 
/ 。 疝 速 组 个 (SRAM L2 高 速 缓存 保存 取 自 存储 器 
的 高 速 绥 存 行 
ee. 主 存储 器 
; (DRAM) 
i 主 存储 器 保存 取 自 本 地 
更 大 磁盘 的 磁盘 块 
中 慢 ， 本 地 二 级 存储 
(和 王子) L4: 本 地 磁盘 
0 i ee 
服务 器 上 磁盘 的 文件 
ee 一 级 行人 备 
(分 布 式 文件 系统 Web 服 务 器 ) 


1-12 处 理 器 各 存储 结构 的 存 取 速 度 


Cache 不 是 以 内 存 页 为 单位 与 内 存 交 换 数 据 的 ,而 是 以 一 种 叫 作 “Cache line” 的 结构 为 
单位 与 主 存 交换 数据 ,相当 于 缓存 里 面 的 “页 面 " ,也 是 Cache 与 主 存 之 间 传输 的 最 小 单位 ， 
一 般 一 个 Cache line 为 64 字 节 大 小 ,参见 图 1-13。 


处 理 司 


名 字 [ IntelCorei57200U 
代号 | Kaby Lake-U/Y TDP | 15.0W 
括 槽 | Sodet1356FCEGA 
工艺 | 4 纳米 核心 电压 | 1.075V 


损 覆 InieR) Core(TM)i5-7200U CPU @ 2.50GHz 


一 银 数 据 绎 存 
大 小 | 32 KBytes X 了 
摘 填 [8-way set assodative, 64-byte line size 


系列 | = z 
ea 


你 存 
核心 速度 | 3092.44MHz | | 一 级 数据 | 2x32KBytes | 8-way 
偿 频 |x31.0(4-31) | | 一 级 指令 | 2x32KBytes | 8-way 


总 线 盖 度 | ”99.,76 MHz 二 级 | 2x256KBytes | 4-way 
额定 F56 | 三 级 | 3MBytes | 12-way 


已 选择 | 处理 器 #1 "| 核心 数 | 2 线程 数 [ 4 


绎 存 
大 小 | 3 MBytes 
摘 壕 | 12-way set assodative, 64-byte line size 


1-13 CPU 物理 核心 .逻辑 核心 与 三 级 缓存 
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Cache 与 主 存 交换 数据 也 叫 作 "映射 ” ,不 过 这 里 的 交换 只 是 单方 面 地 把 主 存 中 的 内 容 
装 人 Cache 中 。 将 Cache 中 的 数据 写 入 主 存 叫 作 “ 写 回 ”。 当 CPU 要 访问 数据 时 会 完 在 
Cache 中 查找 ,找到 了 称 为 “命中 ” ,命中 后 CPU 将 虚拟 地 址 转换 成 Cache 地 址 进行 访问 ; 否 
则 称 为 "不 命中 ”( Cache Miss) ,这 时 需要 使 用 一 定 的 映射 机 制 将 主 存 中 的 数据 载 入 缓存 中 
并 提供 给 CPU。 在 NUMA 架构 下 ,如 果 本 地 市 点 的 Cache 未 命中 ,但 跨越 QPI 的 远程 Cache 
被 命中 , 则 对 于 发 起 Cache 访问 的 CPU 市 点 来 说 仍然 算 作 “LLC Cache Miss” (不 命中 )。 

按照 映射 机 制 的 不 同 ,Cache 也 相应 地 分 成 了 三 类 ,全 关联 型 Cache .直接 关联 型 Cache 
和 组 关联 型 Cache。 

1.5.1.1 全 关联 型 Cache 

在 全 关联 型 Cache 中 ， 主 存 中 任何 一 块 内 存 都 可 以 以 Cache line 为 单位 上 映 财 到 Cache 的 
任意 位 置 ,这 也 是 “全 关联 "这 一 叫 法 的 由 来 ,如 图 1 一 14 所 示 。Cache 会 为 映射 的 数据 建立 
目录 表 ,每 个 表 项 由 虚拟 地 址 .Cache 块 号 和 有 效 位 三 部 分 构成 。 


1 一 14 全 关联 型 Cache 的 映射 视图 


CPU 访问 某 个 虚拟 地 址 时 ,首先 通过 Cache 中 的 目录 表 查 找 上 日 标 内 存 是 否 存 在 于 缓存 
中 ,存在 则 直接 谈 取 ; 不 存在 则 从 内 存 中 映射 。32 位 系统 下 内 存 的 虚拟 地 址 也 是 32 位 的 ,被 
分 成 了 三 个 逻辑 部 分 (64 位 系统 的 虚拟 地 址 则 分 成 了 5 部 分 ,虚拟 地 址 的 概念 我 们 在 后 面 
章节 中 会 详细 介绍 ) :页 目录 地 址 ( Dircetory 部 分 ) 、 页 表 地 址 (Table 部 分 ) 和 页 内 仿 移 (Offset 
部 分 ) ,如 图 1 一 15 和 图 1 一 16 所 示 。 


线性 地 址 
3] 22 21 12 11 0 


1-1s 32 位 系统 下 虚拟 地 址 的 三 级 寻 址 
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CJ 应 用 软件 开发 协议 栈 Sa 
47 39 38 30 29 21 20 1l2 11 0 
Page map Page dir Page table Pasge table 
: Oftset 
level4 pointer selector | entry selector 


1-16 64 位 系统 下 虚拟 地 址 的 五 级 寻 址 
在 32 位 系统 下 全 关联 型 Cache 的 虚拟 地 址 可 看 作 内 存 块 (Cache line ) 块 号 Tag 和 块 内 
地 址 Offset 两 部 分 ,如 图 1 一 17 所 示 。 其 中 Tag 是 和 Cache line 对 应 的 ,而 Offset 即 该 内 存单 
元 在 Cache line 中 的 偏 移 , 因 此 也 可 以 推断 出 ,Offset 占 5 位 (一 条 Cache line 占 64 字 廊 ) ,而 


Tag 则 占用 27 位 。 


图 1-17 全 关联 型 Cache 角度 下 的 虚拟 地 址 


CPU 在 全 关联 型 Cache 中 查找 目录 的 过 程 如 下 : 

(首先 在 Cache 的 目录 表 中 查找 对 应 的 Cache line 地 址 ; 

@ 各 步骤 由 中 找到 对 应 的 目录 项 , 则 检查 目录 项 的 有 效 位 :有 效 则 说 明 缓 存 命中 ,通过 
目录 项 中 的 内 存 块 块 号 Tag 找到 Cache 中 对 应 的 Cache line ,加 上 Offset 找到 相应 数据 位 置 ; 
知 有 效 位 无 效 或 直接 未 找到 对 应 的 目录 项 , 则 说 明 缓存 未 命中 ,CPU 转 而 在 内 存 中 映射 对 应 
的 数据 并 刷新 到 Cache 中 。 整 个 查找 过 程 如 图 1-18 所 示 。 


1-18 全 关联 型 Cache 的 查找 过 程 
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1.5.1.2 直接 关联 型 Cache 

直接 关联 型 Cache 将 Cache 分 成 了 NN 条 主 在 
Cache line ,同时 也 将 主 存 以 Cache 的 容量 为 步 长 
从 低 址 到 高 址 平均 分 成 了 WM 等 份 , 主 存 中 每 一 等 
份 区 域 与 Cache 的 容量 大 小 一 致 。 每 一 等 份 区 域 
中 的 主 存 也 分 成 NW 条 Cache line , 主 存 中 每 一 条 
Cache line 与 Cache 中 的 Cache line 对 应 ,因此 整 
个 主 存 中 有 WW 条 Cache line 与 Cache 其 中 一 条 
Cache line 对 应 ,如 图 1 -19 所 示 。 直 接 关 联 型 
Cache 虽然 实现 得 比较 死板 ,但 也 是 一 种 简单 和 快 
速 的 方案 。 

直接 关联 型 Cache 中 目录 表 的 表 项 由 两 部 分 组 成 :区 号 和 有 效 位 ,而 对 应 的 主 存 中 的 虚 
拟 地 址 则 被 分 成 了 三 个 部 分 :区 号 Tag 、 块 号 Cache Set 和 块 内 偏 移 Offset, 如 图 1 一 20 所 示 。 
区 号 Tag 表示 主 存 M 等 份 中 的 一 份 ; 块 号 Cache Set 即 每 一 等 份 中 Cache line 的 序号 (占用 的 
位 数 与 Cache 的 大 小 及 Cache line 的 大 小 有 关 ) ; 块 内 偶 移 Offset 表示 在 一 条 Cache line 中 的 
偏 移 ( 占 5 位 )。 31 0 

T 必 O 
1-20 直接 关联 型 Cache 角度 下 的 虚拟 地 址 

CPU 在 直接 关联 型 Cache 中 查找 目录 的 过 程 如 下 : 

QD 首先 根据 区 号 Tag 在 Cache 的 目录 表 中 寻找 对 应 的 目录 表 项 ; 

四 如 果 步 又 山中 找到 了 对 应 的 表 项 , 则 检查 有 效 位 是 否 有 效 : 奋 有 效 则 根据 块 号 Cache 
Set( Cache line 的 索引 ) 找到 Cache 中 对 应 的 Cache line , 朋 与 Offset 办 加 即 得 目标 内 容 的 地 
址 ;者 无 将 或 找 不 到 对 应 的 表 项 则 说 明 目 标 Cache line 不 在 Cache 中 ,需要 从 主 存 中 映射 。 
整个 查找 过 程 如 图 1 -21 所 示 。 


Index 缓存 


ee 

EE 
| A me | 
EE | 一 
| 一 一 一 nes 
一 | 一 
和 和 了 
ER 


图 1-19 直接 关联 型 Cache 的 映射 视图 


块 内 地 址 C 


仿 移 地 址 C 


Cache B 块 


1 一 21 直接 关联 型 Cache 的 查找 过 程 


1.5.1.3 组 关联 型 Cache 
组 关联 型 Cache 是 上 述 两 种 方式 的 折 中 。 在 直接 关联 型 Cache 中 , 主 存 被 分 成 了 若干 
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等 份 ,每 个 等 份 中 块 号 相同 的 Cache line 只 能 同时 在 Cache 中 出 现 一 份 , 是 “有 他 无 我 有 我 无 
他 ”的 状态 。 但 在 实际 应 用 中 ,这 种 映射 方式 并 不 是 最 高 效 的 ,因为 为 每 一 个 等 份 区 域 分 配 
的 Cache line 数量 太 少 了 (只 有 一 条 ) ,所 以 往往 导致 Cache line 频繁 切换 。 组 关联 型 Cache 
改善 了 上 述 状况 , 它 将 主 存 和 Cache 都 分 成 了 奉 干 组 ,Cache 中 的 分 组 数量 与 主 存 中 的 每 个 
组 包含 的 Cache line 块 的 数量 相同 , 主 存 的 Cache line 块 对 应 到 Cache 的 哪个 组 是 固定 的 ,但 
对 应 到 该 组 的 哪 一 行 是 灵活 的 。 如 图 1 -22 所 示 的 是 一 个 两 路 Cache line 的 分 组 方式 
( Cache 分 组 中 有 两 条 Cache line)。 


Cache 


3 


标 ; FE 6f) 


组 关联 型 Cache 中 的 目录 项 被 分 为 三 部 分 ,分 别 是 区 号 + 块 号 .Cache 块 号 和 有 效 位 。 
而 主 存 中 的 虚拟 地 址 则 相应 地 被 分 为 了 四 部 分 :区 号 、 组 号 、Cache 块 号 和 块 内 偏 移 ,其 中 区 
号 + 块 号 决定 了 在 Cache 中 的 Cache line 的 索引 。CPU 在 Cache 中 查找 目录 项 的 过 程 如 下 : 

J 根据 虚拟 地 址 中 的 区 号 + 块 号 在 Cache 的 目录 表 中 查找 ; 

@ 如 果 步 骤 山 中 找到 了 对 应 的 区 号 + 块 号 , 则 检查 有 效 位 是 否 有 效 : 各 有 效 , 则 表明 目 
标 内 容 在 Cache 中 ,根据 组 号 找到 Cache 中 的 Cache line ,再 加 上 偏 移 就 是 目标 内 容 在 Cache 
中 的 地 址 ;否则 ,就 要 到 内 存 中 映射 恋 取 。 整 个 查找 过 程 如 图 1 -23 所 示 。 


Cache 块 续 匹配 日 合 中 
Cache 块 号 


16 恒 1-23 组 关联 型 Cache 的 查找 过 程 
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1.5.1.4 存在 的 问题 
1. Cache 一 致 性 问题 
如 果 多 个 处 理 器 同时 对 缓存 中 某 个 相同 地 址 的 内 存 块 (Cache line ) 进行 读 写 就 会 引起 
Cache 一 致 性 问题 ,本 质 上 这 是 因为 每 个 CPU 会 独 享 各 自 的 缓存 , 且 更 改 缓存 后 不 会 立即 
“沙盘 "记录 到 主 存 , 导 致 主 存 中 的 数据 在 各 个 缓存 中 都 有 不 同 的 备份 ( 单 路 单 核 处 理 需 不 
会 出 现 Cache 一 致 性 问题 ) 。 
一 致 性 问题 的 解决 方案 有 两 种 协议 机 制 :基于 目录 的 协议 ( Directory-Based Protocol ) 和 
总 线条 探 协议 ( Bus Snooping Protocol ) 。 
> 基于 目录 的 协议 : 绥 存 在 Cache 中 的 内 存 块 需 要 将 地 址 统一 记录 在 一 个 全 局 目录 表 
中 ,以 此 协调 一 致 性 问题 。 当 CPU 需要 将 某 块 数据 从 内 存 加 载 到 独 享 Cache 中 时 要 
回 目 录 表 提出 申请 ; 当 Cache 中 的 内 存 块 被 改变 时 ,目录 表 也 要 改变 其 状态 ,更 新 其 
他 CPU 的 Cache 备份 。 基 于 目录 的 协议 是 一 种 全 局 统一 管理 式 方案 ,其 实时 性 较 总 
线 守 探 协议 稍 低 ,但 适用 于 大 规模 多 处 理 需 系统 。 

> 总 线 帘 探 协 议 : 被 CPU 独 享 的 Cache 中 的 内 容 一 旦 被 本 地 处 理 需 改变 , 则 需要 通过 总 
线 广播 ;每 个 CPU 都 会 监听 总 线 ,一 旦 监听 到 了 改变 通知 则 改变 本 地 Cache 中 相应 数 
据 的 备份 。 总 线 锻 探 协议 是 一 种 分 布 式 协商 通知 式 方案 ,其 实时 性 较 基 于 目录 的 协 
议 更 高 ,适用 于 小 规模 多 处 理 器 系统 。 

一 般 的 处 理 器 都 实现 了 Cache 一 致 性 协议 ,以 总 线 突 探 协 议 居多 ,而 总 线 帘 探 协 议 又 以 
MESI 协议 与 MESIF 协议 为 代表 。 在 MESI 协议 中 ,每 个 Cache line 都 有 两 个 标志 :dirty( 数 
据 是 否 被 修改 ) 标 志和 valid (数据 是 否 有 效 ) 标 志 , 描 述 了 Cache 和 主 存 之 间 的 数据 关系 。 
MESI 是 Cache line 的 4 种 状态 的 首 字 母 缩 写 , 详 见 表 1 -2。 

表 1-2 ”Cache line 的 4 种 状态 及 其 迁移 方向 


侦 测 到 总 线 上 有 其 他 处 理 融 在 请 求 读 该 行 ,刷新 该 行 至 内 存 ， 
以 便 其 他 处 理 融 能 用 到 最 新 的 数据 ,并 且 状 态 更 新 为 S 态 
使 测 到 总 线 上 有 其 他 处 理 嚣 请求 意图” 写 该 行 , 即 请 求 独占 
态 , 刷 新 该 行 至 内 存 , 并 且 设置 本 地 副本 为 工 态 


本 地 处 理 亏 对 该 行进 行 读 操作 ,不 改变 状态 


本 地 处 理 基 对 该 行进 行 写 操 作 ,不 改变 状态 


债 测 到 总 线 上 有 其 他 处 理 占 请 求 读 该 行 ,因为 本 地 处理 髓 还 
没有 对 该 行进 行 写 操作 ,因此 缓存 内 容 与 内 存 中 内 容 一 致 , 仅 
独占 态 (E) 仪 改变 成 S 态 


侦 测 到 总 线 上 有 其 他 人 处理 右 请 求 “ 意 图 ” 写 该 行 , 即 男 外 有 处 
理 器 请 求 独占 该 行 ,并 且 有 写 的 意图 ,因此 设置 成 1 态 


Tr 
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触发 事件 
本 地 处 理 器 对 该 行进 行 读 操作 ,不 改变 状态 
本 地 处 理 器 对 该 行进 行 写 操作 ,不 改变 状态 
侦 测 到 总 线 上 有 其 他 处 理 器 请 求 读 该 行 ,不 改变 状态 
侦 测 到 总 线 上 有 其 他 处 理 器 请 求 “意图 ” 写 该 行 ,进入 I 态 
本 地 处 理 器 对 该 行进 行 读 操作 ,不 改变 状态 
本 地 处 理 器 对 该 行进 行 写 操作 ,不 改变 状态 
侦 测 到 总 线 上 有 其 他 处 理 器 请 求 读 该 行 ,不 改变 状态 
侦 测 到 总 线 上 有 其 他 处 理 器 请 求 * 意 图 " 写 该 行 ,不 改变 状态 


无 效 态 (1) 理 器 证 / 
及 Cache 后 进入 S 态 


独占 态 (E) 


Cache 不 命中 ,产生 一 个 “意图 ” 写 该 行 的 信号 到 总 线 , 然 后 进 
人 人 M 态 


由 此 也 引出 了 著名 的 MESI 定律 :在 所 有 的 脏 缓存 段 (M 状态 ) 被 回 写 后 ,任意 缓存 级 别 
的 所 有 缓存 段 中 的 内 容 和 它们 对 应 的 内 存 中 的 内 容 一 致 。 此 外 ,在 任意 时 刻 , 当 茶 个 位 置 的 
内 存 被 一 个 处 理 带 加 载 到 独占 缓存 段 (上 上 状态 ) 时 就 不 会 再 出 现在 其 他 任何 处 理 絮 的 缓存 
中 了 。 

2. Cache line 伪 共 竺 问题 

一 个 Cache line 是 可 以 被 多 个 线程 所 使 用 的 。 各 线程 中 有 些 变 量 虽 是 不 同 的 ,但 却 实 际 
上 存储 于 同一 条 Cache line 中 。 如 采 有 茶 线 程 修改 了 其 中 一 个 变量 的 值 , 其 他 线程 可 能 会 强 
制 重 新 映射 Cache line。 这 是 因为 一 致 性 协议 是 以 Cache line, 如 图 1 一 24 所 示 , 而 不 是 以 单 
个 独立 的 变量 元 素 为 单位 的 。 这 种 大 动 干戈 的 数据 共 至 方式 称 作 “ 伪 共 至 ”( False Sharing) 。 


ete | | ewe 


加 加 | 于 | 加 加 | 加 图 | | | 加 时时 到 于 到 加 加 


-一 
Arrrrrr rrrr 


“i | | | | | 
国 国 图 国 国 国 国 国 国 国 国 国 国 国 国 图 


1 一 24 Cache line 的 伪 共 享 问题 
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解决 伪 共 享 问题 可 以 采用 如 下 方案 : 增 大 变量 元 素 的 地 址 间隔 以 使 不 同 线 程 存 取 的 元 
对 位 于 不 同 的 Cache line 上 。 这 是 典型 的 以 空间 换 时 间 的 方案 。 


1.5.2 TLB 


CPU 不 仅 有 上 述 三 种 Cache, 还 有 一 种 特殊 的 缓存 部 件 : TLB (Translation Look-aside 
Buffer , 劳 路 转换 缓 种 ,或 称 为 快 表 ) ,用 于 缓存 内 存 中 的 页 表 项 。TLB 本 质 上 就 是 一 种 
Cache ,其 存储 介质 也 是 SRAM ,只 不 过 存放 的 内 容 与 上 述 几 种 Cache 不 同 ,TLB 中 存放 的 是 
内 存 的 页 表 项 (关于 页 表 与 页 表 项 的 内 容 在 后 续 章 节 中 会 有 详细 介绍 ) 。TLB 一 般 采 用 相连 
存储 融 的 方案 ,用 虚拟 地 址 进行 搜索 而 返回 对 应 的 物理 地 址 ,以 此 来 避 倪 需要 多 次 访问 内 存 
才能 得 到 物理 地 址 的 延迟 问题 。 如 果 没 有 TLB ,通过 虚拟 地 址 访问 物理 地 址 要 经 过 三 段 式 
查 表 (32 位 系统 ) , 即 抑 从 虚拟 地 址 高 位 部 分 获取 页 目录 表 的 索引 继而 得 到 页 目录 表 项 ,再 
通过 虚拟 地 址 中 位 部 分 获取 页 表 索 引 继而 得 到 页 表 项 ,最 后 通过 虚拟 地 址 低位 部 分 获取 内 
存 页 的 内 容 偶 移 。 从 过 程 来 看 实在 是 过 于 烦琐 与 耗 时 。 

TLB 保存 了 虚拟 地 址 的 高 20 位 与 页 帆 号 的 对 应 关系 ,CPU 查找 虚拟 地 址 时 先 到 TLB 中 
匹配 高 20 位 ,如 果 能 够 匹配 成 功 (命中 ) 则 可 下 接 获 取 物 理 页 帧 号 ,但 如 果 不 命中 则 仍然 需 
要 进行 三 段 式 查找 ,如 图 1 一 25 所 示 。 


TLB 未 命中 


图 1-2S TTLB 查找 过 程 


有 些 处 理 需 为 了 提高 处 理 效 率 还 将 TLB 进行 了 分 组 ,一般 分 为 4 组 ,分 别 用 于 存储 下 列 
内 容 : 

> 绥 存 常规 页 表 (4 KB 页 ) 的 指令 页 表 项 ( Instruction-TLB ) ; 

> 绥 存 第 规 页 表 (4 KB 页 ) 的 数据 页 表 项 (Data-TLB ) ; 

> 缓存 大 矿 十 页 表 (4 MB 页 ) 的 指令 页 表 项 (Instruction-TLB ) ; 
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> 缓存 大 尺寸 页 表 (4 KB 页 ) 的 数据 页 表 项 (Data-TLB) 。 


1.6 国产 X86 架构 CPU 现状 


X86/X64 架构 是 PC .服务 器 和 超 算 领域 处 理 需 的 主流 架构 ,除了 具有 良好 的 计算 性 能 
和 扩展 加 速 能 力 ,还 宫 括 了 对 多 数 操 作 系统 的 文 持 ,也 兼容 了 多 种 异 构 扩 展 忌 片 , 具 有 良好 
的 生态 。 其 他 架构 的 CPU 都 不 具备 与 X86/X64 正面 对 抗 的 能 力 和 实力 ,更 得 不 到 全 生态 的 
支持 ,无 法 挑战 由 微软 和 Intel 构筑 的 事实 上 的 “Wintel "联盟 。 

国产 X86 架构 处 理 器 的 技术 来 源 主 要 有 两 个 :AMD 和 VIA( 台湾 威盛 ) ,分 别 向 天 津 海 
光 (HYGON) 和 上 海 兆 芯 授 权 X86 架构 ,前 者 主要 面向 高 性 能 服务 需 的 处 理 央 市场, 后 者 定 
位 于 桌面 级 处 理 需 市 场 。 

1. 海光 X86 CPU 

X86 架构 是 Intel 的 知识 产权 ,虽然 有 交叉 授权 条 球 存 在 ,AMD 也 固然 可 以 使 用 X86 染 
构 的 专利 技术 ,但 如 果 AMD 要 对 第 三 方 授权 X86 架构 全 套 指 令 集 也 不 是 一 厢 情 愿 的 事 。 虽 
然 AMD 无 权 将 X86 指令 集 的 专利 技术 授权 给 第 三 方 , 但 是 其 目 主 设计 的 X86 CPU 架构 是 
可 以 被 授权 的 ,也 就 是 说 不 能 授权 的 是 X86 的 基础 专利 技术 ,但 是 基于 X86 基础 技术 衍生 出 
的 公 版 CPU 架构 则 属于 AMD 上 自主 持 有 ,是 可 以 授权 给 第 三 方 的 ,这 是 不 违反 交叉 授权 协 
议 的 。 

而 现实 也 的 确 如 此 。AMD 向 海光 授权 的 是 已 经 设计 好 的 CPU 内 核 ,或 者 说 就 是 AMD 
基于 X86 基础 技术 日 研 的 Zen 内 核 ,可 能 还 包括 了 将 不 同 功 能 的 芯片 集成 到 同一 片上 系统 
(SoC) 的 相关 技术 ,这 是 异 构 计 算 架 构 的 核心 技术 。 但 是 Zen 内 核 仅仅 是 CPU 内 核 而 不 是 
X86 指令 集 , 获 得 方 无 法 对 CPU 进行 设计 改进 ,也 就 无 法 衍生 出 目 主 知识 产权 的 CPU 架构 。 
当然 Zen 的 全 套 设 计 还 是 可 以 看 的 ,但 光 是 “看 ”能 不 能 为 国产 CPU 的 设计 市 来 实质 性 技术 
进步 还 要 两 说 。 

2. 兆 芯 X86 CPU 

兆 芯 的 X86 技术 来 源 于 VIA ,也 是 基于 与 海光 一 样 的 技术 引进 道路 。2014 年 兆 世 推出 
了 仿制 的 X86 处 理 需 ZX-A ,2016 年 其 自主 设计 的 ZX-C 四 核 处 理 顺 实现 量 产 , 但 内 核 还 是 
VIA 的 Isaiah 2 ,采用 的 是 28 nm 工艺 ,兼容 Windows .Ubuntu 以 及 中 科 方 德 .中 标 肤 麟 、 普 华 
等 国产 操作 系统 。 

2017 年 底 , 兆 芯 发 布 了 自主 设计 的 ZX-D 处 理 器 (基于 目 主 设计 的 “五 道口 ?处 理 器 架 
构 ) ,该 型 号 处 理 需 面 加 便携 式 设 备 和 桌面 设备 。ZX-D 处 理 器 采用 了 全 新 内 核 ,最 多 支持 8 
个 核心 ,IPC 性 能 比 上 代 提 升 25% , 单 芯片 性 能 提升 140% ,内 存 带宽 提升 120% ;基于 业界 
先进 的 SoC 架构 ,并 有 晶 整 合 了 高 性 能 集成 显卡 , 莱 容 X86 32/64 位 指令 集 、SSE4.2/AVX 指令 
集 ,支持 双 通 道 DDR4 内 存 .CPU 虚拟 化 .SM3/SM4 国 密 算 法 以 及 9 个 PCI-E 3.0 端口 等 。 

2019 年 6 月 ,ZX-E 系列 处 理 絮 发 布 ,官方 宣称 为 国产 首 球 主 频 达 3.0 GHz 的 通用 处 理 
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器 ,采用 的 是 8 核 16 nm 工艺 ,其 单 颗 SoC 芯片 包含 了 CPU .GPU 和 芯片 组 ,具备 高 性 能 和 低 
功 耗 特点 ,适合 PC .超级 本 服务 右 和 散人 入 式 计算 平台 等 各 种 人 硬件 平台 ,性 能 也 相当 于 Inter 
目前 主流 的 第 7 代 过 -7400 的 水 平 。 

另外 值得 一 提 的 是 ,在 技术 上 兆 世 是 国内 唯一 的 拥有 CPU .GPU ,芯片 组 三 种 卫 的 厂商 。 


本 章 小 结 


本 章 总 结 了 处 理 器 的 相关 体系 架构 ,首先 梳理 与 之 相关 的 名 词 和 概念 ,解释 了 精简 指令 
集 和 复杂 指令 集 的 含义 以 及 它们 都 包含 了 哪些 架构 的 处 理 器 ,继而 介绍 了 统一 内 存 存 取 
( UMA ) 架 构 非 统一 内 存 存 取 (NUMA ) 架 构 和 众 核 体系 架构 的 概念 。 

同时 ,本 章节 也 介绍 了 处 理 器 的 三 级 缓存 ( Cache ) 结构 以 及 访问 缓存 的 原理 ,并 简单 描 
述 了 Cache 的 一 任性 和 伪 共 至 问题 。 

最 后 还 介绍 了 国产 X86/X64 处 理 带 的 现状 ,为 后 文 介绍 上 自主 可 控 专 题 埋 下 了 伏笔 。 
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任何 软件 要 想 编译 或 运行 ,离开 了 操作 系统 的 文 持 是 不 可 想象 的 。 在 各 种 操作 系统 中 ， 
无 论 是 易 用 性 ,性 能 .安全 性 还 是 普及 程度 Windows 部 处 于 一 骑 绝 侍 的 优势 地 位 。 里 然 
Windows 系统 不 开源 ,但 是 业内 众多 高 手 纷纷 通过 软件 调试 和 逆 癌 工程 等 方法 ,或 全 局 或 微 
观 地 还 原 了 Windows 的 一 些 全 貌 和 细 市 。 我 们 人 研究 软件 技术 安全 技术 、 逆 问 技 术 , 传 输 技 
术 等 就 不 得 不 研究 Windows 系统 。 

本 音 首 先 介 绍 Windows 的 发 展 历 程 , 继 而 按照 图 2 一 1 所 示 的 提纲 讲述 Windows 整体 系 
统 框架 ,希望 能 为 业内 同行 提供 一 些 技术 参考 和 原理 分 析 。 


32-64 位 茹 容 体系 : WOW64 体 对 结构 
蚀 忻 氛 党 技 HAL 用 户 态 守 间 
庶 拟 地 址 空间 曲 
一 \ 日 、Windows 驱 动 体系 
站 续 D3 动 ) 两 个 空间 的 穿 透 术 : 系统 调用 
Windowst SE Window 体 系 结构 人 
窗口 管理 器 
配置 管理 包 | 
】 安全 十 竺 统 
进程 线程 管理 器 资源 乱 理 器 
1/O 管 理 器 Windows 各 系统 服务 “| 一 一 一 -一 ~ 
ee 会 话 管理 评 
PNP 管 理 嚣 
services.exe 
5 Windows 执 行 体 框 染 sVch ost exe 
思 厌 管理 履 系统 进程 口 
System ldle Process 
System Process 
幼 存 管理 器 
对 象 管理 器 | 


安全 管理 器 


2-1 本 章 提纲 


2.1 Windows 操作 系统 的 历史 


Windows 操作 系统 大 致 可 以 分 为 桌面 操作 系统 .服务 器 操作 系统 .嵌入 式 系统 (Windows 
CE) 三 类 。 在 此 我 们 只 分 析 桌 面 操作 系统 和 服务 器 操作 系统 。 桌 面 操作 系统 和 服务 器 操作 
系统 各 有 所 长 ,例如 桌面 操作 系统 可 能 会 加 入 媒体 管理 ,3D 泻 染 加 速 等 模块 以 服务 于 对 于 
流 媒体 游戏 性 能 有 要 求 的 场景 ,CPU 时 间 片 更 短 一 些 , 以 利于 用 户 操作 的 实时 性 要 求 ;而 服 
务 器 操作 系统 在 这 方面 可 能 就 弱 一 些 ,在 CPU 时 间 片 的 分 布 上 ,服务 器 操作 系统 的 时 间 片 
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更 长 一 些 ,这 是 因为 后 台 服 务 / 进 程 对 于 操作 的 实时 性 要 求 不 是 那么 高 ,但 也 不 希望 发 生 频 
繁 的 上 下 文 切换 ,同时 服务 带 操 作 系 统 也 文 持 更 大 规模 的 多 处 理 带 架构 。 

Windows 系统 的 发 展 历程 如 图 2 -2 所 示 , 对 于 桌面 操作 系统 ,2000 年 发 布 的 Windows 
2000 是 一 个 里 程 碑 式 的 存在 ,其 也 被 称 为 Window NT 5.0, 代 表 了 NT 5.0 内 核 。 从 那 时 起 
到 现在 的 Windows 系统 内 核 的 机 制 与 架构 基本 没有 什么 根本 性 改变 。 表 2 -1 是 Windows 
2000 系统 以 后 的 版 本 演进 细 市 。 


Windows 3.X ,1990 年 发 布 
Windows 95、Windows 98、Windows ME , 1995 一 1999 年 间 发 布 
Windows 2000 ,2000 年 党 布 


Windows XP ,2001 年 发 布 


果 厨 操作 系统 ef Windows Vista , 2007 年 发 布 


。 


pa Windows 7 ，2009 年 发 布 
/ Windows 8 ，2012 年 发 布 
windows 系 统 发 展 历 程 Windows 10 ,2014 年 发 布 
Windows NT ,1993 年 发 布 
\ | 
\ Windows 2000 Server , 
> Windows Server 2003 , 2003 年 发 布 


2008 年 发 布 
2012 年 发 布 


Windows Server 2008 ， 


服务 颖 操作 系统 |e 
Windows Server 2012 ， 


2-2 Windows 操作 系统 发 展 历程 
表 2 一 1 Windows 操作 系统 各 版 本 主要 特性 


es 商业 性 质 的 32 位 图 形 操作 系统 ,也 是 从 这 个 版 本 开始 ,微软 
全 新 的 桌面 感 观 ,分 为 家 庭 版 和 专业 版 两 个 版 本 

Windows XP 64 位 版 本 微软 第 一 个 64 位 介面 捍 作 系统 
改进 的 Active Directory( 活动 目录 ) (如 可 以 从 schema 中 删除 
类 ) 改进 的 Group Policy( 组 策略 ) 操 作 和 管理 以 及 改进 的 磁 
盘 管 理 , 如 可 以 从 Shadow Copy( 卷 影 复 制 ) 中 备份 文件 ,分 为 
WEB 版 .标准 版 .企业 版 .数据 中 心 版 


Windows Server 2003 


Windows Server 2003 的 改进 版 本 ,包含 了 诸如 增强 的 分 布 式 文 
件 系统 命名 空间 管理 界面 等 新 增 功能 


Windows Server 2003 R2 


Windows Vista 更 好 的 安全 性 ,众多 新 功能 ,对 操作 系统 核心 进行 了 修正 


代表 了 下 一 代 的 Windows Server, 对 服务 器 和 网 络 基础 设施 的 
控制 能 力 更 强 , 更 加 注重 安全 性 和 网 络 保护 

不 需 驱 动 就 使 用 触 控 技术 的 Windows 时 面 操作 系统 ,也 集成 
了 DirectX 11 和 Internet Explorer 8 ， 其 中 DirectX 11 增加 了 新 
的 计算 shader 技术 ,可 以 允许 CPU 从 事 更 多 的 通用 计算 工作 ， 
而 不 仅仅 是 3D 运算 


Windows Server 2008 


Windows 7 
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Windows 7 的 服务 器 版 本 ,继续 提升 了 虚拟 化 .系统 管理 弹性 、 
网 络 存 取 方 式 以 及 信息 安全 等 领域 的 应 用 ,是 微软 第 一 个 仅 
支持 64 位 的 操作 系统 ,支持 多 达 64 个 物理 处 理 髓 或 最 多 256 
个 系统 的 逻辑 处理 带 


Windows 8 第 一 款 带 有 Metro 界面 的 桌面 操作 系统 ,支持 来 自 Intel .AMD 
和 ARM 的 芯片 架构 


支持 64 个 物理 处 理 器 .640 个 逻辑 处 理 需 .4TB 内 存 和 64 个 


Windows Server 2008 R2 


故障 转移 群集 节点 。 包 含 了 一 种 全 新 设计 的 弹性 文件 系统 
( Resilient File System, ReFS ) ， 是 以 NTFS 为 基础 构建 的 支持 
新 一 代 存 储 技术 ,并 保持 了 与 NTFS 的 兼容 

Windows 8.1 Windows 8. 1 是 为 Windows 10 铺路 的 

Windows Server 2012 的 升级 版 本 ,功能 性 大 大 增强 ,支持 工作 


Windows Server 2012 R2 文件 夹 .状态 配置 、 存储 分 级 .存储 定位 、 回 写 式 高 速 缓存 、 重 
复数 据 删 除 技术 等 新 功能 


这 里 有 必要 说 明 一 下 ,NT 版 本 号 其 实 是 指 Windows 内 核 的 组 件 版 本 号 。 例 如 Windows 
7 和 Windows Server 2008 R2 虽然 分 别 作 为 客户 机 版 本 和 服务 器 版 本 ,但 都 是 基于 NT 6.1 版 
本 的 内 核 的 ,它们 的 ntoskrnl. exe .hal. dl 设备 驱动 .协议 栈 驱 动 以 及 相关 辅助 工具 等 都 是 一 
样 的 。 所 不 同 的 是 某 些 默认 配置 以 及 针对 各 日 细 分 应 用 场景 的 优化 ,例如 系统 劳务 线程 数 
量 内存 池 大 小 等 。 


Windows Server 2012 


2.2 Windows 操作 系统 架构 


Windows 操作 系统 按照 层次 化 的 思想 进行 了 分 层 ,整合 了 应 用 软件 .系统 软件 /服务 . 设 
备 驱 动 .人 硬件 隔离 层 等 多 方面 要 素 ,其 整体 框架 如 图 2 一 3 所 示 。 
Win32 API 一 一 服务 进程 
系统 DLL ， 如 uesr32.dl1 、kernel32.dll 等 


用 户 态 空间 


系统 调用 穿 墙 ，ntdll.dll，ABI 
Windows 执 行 体 ， 包 括 VO 管 理 器 、 内 存 管 理 器 、 


LO Windows 内 校 核心 ， 含 SSDT、IDT、GDT 等 数据 
驱动 结构 和 相关 机 制 ，ntoskrmnl.exe、win32k.svs 


展 层 驱动 /小 端口 驱动 


内 核 态 空间 


硬件 抽象 层 


物理 硬件 
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在 Windows 中 虚拟 地 址 空间 分 为 用 户 态 空间 (对 应 CPU 的 优先 级 是 R3 级 别 ) 和 内 核 态 
空间 (也 叫 系 统 态 空间 ,对 应 CPU 的 优先 级 是 RO 级 别 ) 两 部 分 , 即 在 32 位 系统 中 
0x80000000 以 下 为 用 户 态 空间 ,0x80000000 以 上 为 内 核 态 空间 。Linux 的 划分 也 是 如 此 。 
当然 ,这 个 0x80000000 的 分 界 点 也 不 是 一 成 不 变 的 ,可 以 通过 系统 配置 进行 调整 ,例如 将 内 
核 态 的 低 址 方 回 的 1 GB 空间 划 到 用 户 态 ,使 其 空间 比 为 3 :1。 在 这 里 需要 注意 的 是 ， 
所 说 的 地 址 空间 是 内 存 的 虚拟 地 址 空间 而 非 物理 地 址 空间 ,32 位 系统 中 虚拟 地 址 空间 只 
4 GCB。 关 于 内 存 空 间 的 细节 后 续 草 世 会 讲 到 。 而 在 开局 PAE( 物理 地 址 扩展 ) 功 能 时 ,操作 
系统 能 够 管理 的 物理 地 址 空间 可 以 大 于 4 GB ,虚拟 地 址 空间 仍 是 4 GB。 更 多 的 物理 内 存 意 
味 着 更 少 的 磁盘 页 面倒 换 ,也 意味 着 更 快 的 访问 速度 。 在 64 位 操作 系统 中 ,虽然 地 址 线 为 
64 位 ,但 其 实 只 有 48 位 可 用 ,因为 48 位 的 地 址 空间 (256 TB ) 已 经 足够 大 了 ,足以 支撑 目前 
各 种 软件 的 虚拟 地 址 空间 。 在 64 位 系统 中 ,起 始 地 址 (0x0 ) 一 0x0000 FFFF FFFF FFFF 是 用 
户 态 空间 ,0xFFFF 0000 0000 0000 一 结束 地 址 是 内 核 态 空间 ,中 间 的 大 卢 "“ 飞 地 "用 于 隔离 这 
两 个 空间 。 

对 于 X86 CPU 而 言 ,其 优先 级 在 用 户 态 为 Ring3 ,在 内 核 态 为 Ring0。 内 核 态 的 权限 级 别 
很 高 ,因此 用 户 态 访问 内 核 态 必须 通过 系统 调用 或 者 中 断 异 稼 .日 陷 等 方式 进行 ,而 内 核 态 调 
用 用 户 态 则 容易 很 多 ,这 样 设 计 也 是 为 了 提升 操作 系统 的 安全 性 。 用 户 态 进程 发 生 了 异 稼 最 
多 就 是 报错 并 结束 该 进程 ,而 内 核 态 发 生 错 误 或 异常 则 会 发 生 BSOD( 死 亡 蓝 屏 ) ,系统 必须 
重 局 。 

简单 来 说 ,我 们 日 第 开发 和 使 用 的 应 用 软件 基本 都 是 用 户 态 软件 ,其 EXE 和 依赖 的 
DLL( 动 态 链接 库 ) 等 均 位 于 用 户 态 空间 ,包括 Windows 提供 的 user32. dll kernel32. dll、 
gdi32. dll advapi32. dll 等 ,提供 了 Win32 API 接口 (Native API) ,例如 ReadFile 等 。 但 这 些 
软件 需要 进行 文件 谈 写 .内 存 分 配 等 操作 的 时 候 , 就 需要 仿 助 内 核 态 软件 的 力量 了 ,这 个 力 
量 被 比喻 为 “ 妆 场 穿 透 ”, 而 使 用 的 “ 瘟 子 ”就 是 系统 调用 ,例如 ZwReadFile。 phd 
的 人 口 都 在 ntdll. dl 中。ntqdll. dl 是 个 很 特殊 的 DLL, 用 户 态 与 内 核 态 的 切换 都 是 在 这 个 库 
中 实现 的 。 上 有 具体 地 说 ,这 个 库 会 调用 相应 的 日 陷 指 令 (int 0x2E ) 或 者 快速 调用 指令 (Intel 
CPU 下 为 sysenter, AMD CPU 下 为 syscall) ,将 SSDT( 系 统 服务 描述 符 表 ) 中 的 调用 号 (对 应 
SSDT 中 的 具体 系统 调用 ,例如 NtReadFile 在 表 中 的 索引 ) 赋 信 到 EAX 寄存 大 ,并 进行 参数 奈 
栈 内核 态 切换 .指令 调用 等 操作 ,从 而 进入 系统 空间 。 我 们 可 以 将 ntdll. dll 看 成 用 户 态 空间 与 
内 核 态 空间 的 分 水 岭 , 图 2 一 3 中 两 种 状态 的 分 界线 严格 来 说 应 该 处 在 ntdll. dl 模块 的 中 则 。 

如 图 2 -4 所 示 就 是 在 Win7 64 位 系统 下 ntdll. dll 导出 的 接口 ,可 以 看 到 其 Entry Point 
都 位 于 用 户 空间 ,其 接口 名 称 之 前 都 加 了 Zw 前 级, 以 区 别 于 上 层 DLL 导出 的 原生 接口 。 

此 处 我 们 要 侧 单 介绍 让 ABI( Application Binary Interface ) 。 对 于 API 大 家 部 很 熟悉 ,而 
ABI 描述 的 是 应 用 程序 的 二 进 制 接口 ,更 为 底层 ,同时 包括 了 诸如 数据 类 型 .对齐 规则 系统 
调用 约定 .寄存 硕 使 用 .参数 的 传递 顺序 .参数 在 堆栈 中 如 何 存 放 、 系 统 调 用 怎样 返回 等 规 
则 ,因此 ABI 与 实现 语言 编译 .操作 系统 类 型 处理 器 类 型 等 都 有 关系 。ABI 允许 编译 好 
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B 1701 (Ox06A5) 1692 (0x069C) ZwQueueApcThreadEx 
(Ox06A6) 1693 [0x069D) ZwRaiseException 
图 1703 (Ox06A7) 1694 (0x069E) ZwRaiseHardError 


1704 (0x06A8) 1695 (Ox069F) ZwReadFile 
图 1705 (0x06A9) 1696 (0x06A0) ZwReadFileScatter 
图 1706 (Ox06AA) 1697 (0x06A1) ZwReadOnlyEnlistment 
1707 (Ox06AB) 1698 (0x06A2) ZwReadRequestData 
1699 (Ox06A3) ZwReadVirtualMemory 
1700 (0x06A4) ZwRecoverEnlistment 
1i01 (Ox06A3) ZwRecoverResourceManager 
1702 (0x06A6) ZwRecoverTransactionManager 
1703 (0x06A7) ZwRegisterProtocolAddressinformation 
(Ox06B1) 1704 (0x05A8) ZwRegisterThreadTerminatePort 
图 1714 (0x06B2) 1705 (0x06A9) ZwReleaseKeyedEvent 0x000216C0 


图 2-4 ntdll. dll 导出 接口 示例 


的 目标 代码 在 使 用 兼容 ABI 的 系统 中 无 害 改 动 就 能 运行 ,但 ABI 是 汇编 级 别 的 接口 ,不 能 被 
局 层 语 言 下 接 拿 来 用 。 

在 用 户 态 空间 ,还 有 一 些微 软 或 者 第 三 方 提 供 的 服务 进程 或 服务 支撑 进程 ,例如 csrss. 
exe ,lsass. exe ,smss. exe ,以 及 一 些微 软 合 作 方 提供 的 诸如 显卡 加 速 驱动 .网 卡 加 速 驱 动 文件 
系统 等 程序 。 服 务 文 撑 进程 并 不 由 服务 控制 管理 硕 司 动 , 比 如 登录 管理 会 话 管理 ,出 于 性 
能 和 安全 性 的 考量 ,也 有 许多 放 在 用 户 态 , 它 们 大 多 符合 Windows UMDF 框架 。 在 具体 介绍 
各 服务 进程 之 前 先 来 看 看 环境 子 系统 的 概念 。Windows 中 的 环境 子 系统 包括 了 Windows 环 
境 子 系统 .POSIX( Portable Operating System Interface of UNIX , UNIX 可 移植 操作 系统 接口 ) 子 
系统 和 0S/2(IBM 开发 的 操作 系统 ) 子 系统 三 种 。 早 期 三 种 都 是 存在 的 ,然而 随 着 时 代 的 发 
展 , 后 两 种 基本 者 淡出 了 Windows 系统 的 文 持 序列 ,只 剩 下 Windows 环境 子 系统 一 家 独 大 。 
而 Windows 环境 子 系统 又 包括 了 环境 子 系统 承载 进程 csrss. exe .内核 设备 驱动 win32k. sys、 
一 些 子 系统 DLL( 如 kernel32. dll ,advapi32. dll user32. dll 和 gdi32. dll 等 ) 和 一 些 设备 驱动 
(如 图 像 设 备 驱 动 .打印 机 驱动 和 视频 小 闹 口 驱动 等 )。 以 下 是 各 个 服务 进程 的 介绍 . 

> Csrss. exe : csrss. exe 是 Windows 环境 子 系统 的 承载 进程 ,是 Windows 子 系 统 在 用 户 态 

的 部 分 (在 内 核 态 的 部 分 是 win32k. sys, 这 部 分 负责 窗口 和 图 形 管 理 以 及 对 DirectX 
功能 的 封 狼 ) ,csrss 的 全 称 为 Client/Server Runtime Server Subsvstem (客户 病 / 服 务 病 
运行 时 子 系统 ) ,作用 是 将 执行 体 的 一 些 功能 以 子 集 的 方式 提供 给 其 他 进程 调用 ,并 
记录 所 有 Win32 程序 的 进程 和 线程 的 创建 与 删除 事件 ,也 管理 与 图 形 相 关 的 任务 , 同 
时 执行 16 位 的 虚拟 MS-DOS 环境 的 图 形 窗 口 进程 。 

> win32k. sys: 包括 窗口 管理 带 ( 窗 口 显 示 、 屏 大 输出 、 键 盘 鼠 标 输入 、 回 用户 传 递 消 

息 ) 和 图 形 设 备 接口 (Graphics Device Interface ,GDI, 图形 输出 限 数 库 , 位 于 应 用 程序 
和 图 像 设 备 驱 动 之 间 ,负责 翻译 应 用 程序 的 图 像 输出 请 求 并 将 请 求 发 送 到 网 像 显 示 
设备 ,在 屏幕 上 绘制 图 像 等 ) 两 部 分 。 

> lsass. exe: Windows 安全 机 制 ,用 于 本 地 安全 性 授权 ,比如 登录 操作 ,为 winlogon 服务 

的 用 户 验 证 生成 一 个 进程 等 。 
> explorer. exe: Windows 资源 管理 天 ,用 于 操作 系统 的 岁 形 外 元, 包括 开始 沫 单 .任务 
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栏 .桌面 和 文件 管理 等 。 

> services. exe :用 于 管理 局 动 和 停止 服务 ,该 进程 也 会 处 理 计算 机 在 司 动 和 关闭 时 运行 
的 服务 ,并且 众多 服务 进程 的 父 进 程 都 是 services. exe。 

> smss. exe :smss 的 全 称 是 Session Manager Subsystem, 会 话 管理 子 系统 ,是 ntoskml( 内 
核 ) 创 建 的 第 一 个 用 户 态 进程 ,负责 启动 用户 会 话 , 运 行 Windows 登录 过 程 ,同时 启动 
Windows 子 系统 进程 csrss. exe 和 登录 进程 winlogon. exe( 在 系统 的 第 一 个 会 话 即 会 话 
0 时 为 wininit. exe ) ,创建 完成 后 smss. exe 退出 。 

> svchost. exe :用 于 加 载 操作 系统 提供 的 . dl 文件 ,可 以 运行 多 个 实例 (一 个 服务 对 应 
一 个 实例 ) o 一 | svehost. exe 进程 会 加 载 很 多 . dll 文件 ， 它们 可 以 了 床 载 很 多 功能 ? 例 
如 RPC( 远 程 过 程 调用 ) 等 。 这 些 动态 链接 库 以 svchost. exe 为 牡 主 可 执行 文件 , 回 外 
界 进 程 提 供 服 务 ,但 svchost. exe 本 号 不 提供 任何 服务 。 当 系统 司 动 时 ,svchost. exe 会 
检查 注册 表 以 明确 目 己 需要 加 载 的 动态 链接 库 。 

> System Idle Process: 这 个 特殊 进程 的 进程 ID 永远 为 0 , 称 为 空闲 进程 ,但 没有 实际 的 
映像 名 也 以 对 应 ( 即 找 不 到 idle. exe 这 个 文件 ) 。 这 个 进程 是 个 单线 程 进 程 ,负责 在 
每 一 个 处 理 硕 上 占用 CPU 空闲 时 间 。 

> System Process :这 个 特殊 进程 的 进程 ID 永远 为 4, 称 为 系统 进程 ,其 所 属 的 线程 称 为 
内 核 模 式 系统 线程 。 这 些 系 统 线 程 就 是 内 核 劳 务 线程 /内 核 工 作 线 程 ,用 于 内 存 平衡 
集 管理 .内 存 脏 页 面 换 出 等 。 从 图 2 -5 中 也 可 以 看 出 ,系统 线程 的 发 起 者 和 调用 的 
模块 一 般 痢 是 ntoskrnl. exe( 系统 内 核 ) 和 . sys( 设备 驱 动 ) 等 内 核 模 块 。 


号 | 回 | 可 


rT CPU Cowi... 


11832 ndie, EyelNetDeaAllocateChannel*0r440 
10668 rdbss. sys RrReference+*tr164 
i10420 < 0.01 1 zdbss. srs!RrReterence+0r1éd 
ntoskrnl. exe!l RelshttachedProcess*0r le 
ntoskrnl. exel RelsAttachedProcess*0r le 
ntoskrnl. exel RelsAttachedProcess*(0r le 
ntoskrnl. exe RelshAttachedProcess0rle 
ntoskrnl. ere! FeRtlAddToTunnelCache*0r2679 
Tdbes. STE!RrReference+*(r16t 
ndis. syslNetDaaAllocateChannel+*0rd440 
ntoskrnl. exe! FeRtlAddielTunnelCache*0r2678 
360AvFl1t. sys*0rx9a60 
TdbeEs. SFEIRrReferencerlrl1e4 
rdbss, sys |IRrReference*016d 
0r50010 


ETY. EFS+OrA46910 
Ee i | 


图 2-S 本 机 系统 线程 示意 图 
这 里 还 要 解释 一 下 内 核 旁 务 线程 。 内 核 秀 务 线程 是 专门 为 系统 做 一 些 不 那么 紧急 但 重 


复 性 比较 高 的 专职 工作 的 线程 。 例 如 中 断 处 理 例 程 后 半 段 的 执行 都 是 放 在 内 核 劳务 线程 中 
执行 的 (DPC ,延迟 过 程 调用 ) ,因为 这 些 工作 不 应 该 在 高 中 断 优 先 级 环境 下 运行 ,而 应 该 在 
普通 优先 级 状态 下 执行 ,因此 这 些 劳务 线程 也 都 处 于 这 种 较 低 的 优先 级 状态 。 系 统 具 备 一 
个 工作 项 ( Workltem) 队列 ,Workltem 包含 一 个 例 程 以 及 一 个 参数 , 当 内 核 劳务 线程 执行 时 从 
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队列 中 获取 WorkItem 并 执行 这 些 例 程 ,这 个 过 程 比 DPC 本 身 简单 。 
内 核 劳 务 线程 按照 线程 优先 级 (区别 于 中 断 请 求 优先 级 ) 可 分 为 三 类 . 
> 延迟 型 劳务 线程 :线程 优先 级 为 12 ,处理 非 紧 急 工 作 项 ,处 于 等 待 状态 时 允许 线程 的 
栈 内 存 页 面 被 换 出 到 倒 换 页 面 文件 中 。 
> 紧急 型 劳务 线程 :线程 优先 级 为 13 ,处 理 一 些 紧 急 工 作 项 ,线程 的 内 存 页 面 不 允许 


倒 换 。 
> 超 紧 急 型 劳务 线程 :线程 优先 级 为 15 ,处 理 超 紧急 工作 项 ,线程 的 内 存 页面 不 允许 
倒 换 。 


可 以 通过 ExOueueWorkItem 方法 或 loQueueWorkltem 方法 把 Workltem 分 发 到 一 个 队列 
中 ,也 可 以 通过 ExpWorkerThreadBalanceManager 方法 确定 是 否 需 要 创建 新 的 紧急 型 劳务 
线程 
在 内 核 态 空间 中 ,最 上 面 一 层 是 Windows 执行 体 ,包括 内 存 管理 带 、1O 管理 带 , 缓 行 管 理 
右 对象 管理 器 、PNP( Plug-and-Play , 即 搬 即 用 ) 管 理 需 、 进 程 管理 器 .安全 管理 等 ,如 图 2-6 所 
示 , 它 是 ntoskrnl. exe 模块 偏 上 面 的 一 层 。 例 如 后 文 要 介绍 的 完成 端口 机 制 ,就 是 VO 管理 屁 
的 组 成 部 分 。Windows 执行 体 中 包括 了 一 些 管理 机 制 ,用 于 将 用 户 态 的 服务 请 求 转换 成 更 为 底 
搬 的 服务 幸 用 。 


[1/0 管理 器 


NTFS 文 件 系 统 


2-6 Windows 执行 体 框架 


Windows 执行 体 包 含 了 下 列 主要 组 件 : 

> 配置 管理 器 :管理 系统 中 的 注册 表 。 

> 进程 线程 管理 器 :创建 和 终止 进程 线程 ,对 于 内 核 核 心 层 的 进 线程 管理 则 提供 了 更 多 
的 语义 文 持 。 

> LO 管理 器 :将 IO 请 求 翻译 为 相应 设备 /协议 栈 驱 动能 够 理解 的 语义 (1/0 请 求 包 ， 
IRP) ,包括 网 络 协议 栈 NTFS 文件 系统 协议 栈 和 相应 WO 设备 的 协议 栈 的 上 层 结 构 。 

> PNP 管理 器 : 枚 举 总 线 上 的 设备 ;获取 每 个 设备 需要 的 便 件 货源 ,例如 端口 (Port) .中 
四 Interrupt Request ,IRQ ) 等 等 ,并 分 配 这 些 资源 (由 总 线 驱 动 回 PNP 管理 需 报 告 
其 总 总 线 上 的 设备 ) ;加 载 相应 设备 的 驱动 程 订 ;对 于 设备 的 移 除 和 仿 用 ,发 送 通 知 消 居 
到 系统 中 。 


<, 第 2 章 Windows 整体 框架 J 


上 > 会 话 管理 器 :本 地 或 者 远程 登录 Windows 时 ,系统 都 会 分 配 一 个 会 话 也。 所 谓 会 话 ， 
就 是 我 们 登录 之 后 的 运行 环境 ,这 个 环境 的 标识 就 是 会 话 ID ,是 与 每 个 登录 相关 联 
环境 win32k. SVS ,并 启动 csrss. exe 和 winlogon. exe 进程 ,用 由 winlogon. exe 启动 其 他 
的 系统 管理 进程 ,最 后 进入 登录 界面 。 

> 电源 管理 器 :管理 电源 事件 ,产生 电源 IO 通知 并 发 送 给 设备 驱动 程序 。 

> 内 存 管理 器 :实现 了 虚拟 内 存 机 制 ,为 进程 提供 虚拟 内 存 空间 ,管理 从 虚拟 内 存 问 物 
理 内 存 的 映射 。 

> 缓存 管理 器 :管理 磁 抢 文件 写 内 存 文件 的 互 换 与 映 喘 , 提 噩 系统 访问 磁 表 文 件 的 

> 对 象 管理 器 :可 以 提供 一 种 公共 的 机 制 来 使 用 系统 资源 ,将 散落 在 系统 各 个 角落 中 的 
资源 控制 操作 集中 在 一 起 ,可 以 对 对 和 象 进行 计数 .限制 使 用 和 统一 命名 等 。Windows 
内 部 的 对 象 包括 执 行 体 对 象 和 内 核对 象 两 种 ,其 中 执行 体 对 象 就 是 上 文 说 的 对 象 管 
理 希 .进程 管理 希 .IO 管理 硕 等 ,而 内 核对 象 则 是 更 基础 、 更 底层 的 一 些 对 象 ,例如 
内 存 对 象 文件 对 象 . 互 太 量 对 象 等 ,内 核对 象 对 于 用 户 态 软件 是 不 可 见 的 ,只 能 由 执 
行 体 文件 使 用 。 图 2 -7 是 导出 给 用 户 态 软件 使 用 的 执行 体 对 象 。 

加 KeyedEvent 

DMutant 

名 powObject 

a PowerRequest 


‘Process 


EAdapter 

Bh ALPC Port 

3 Callback 

Controller 

© DebugObject 
,Desktop 

Device 

© Directory 

Eh Driver 

| EtwConsumer 

th EtwRegistration 

1 Event 

©) Eventpair 

File 
FiterCcommunicationPort 
二 FilterConnectionPort 六 TpWorkerFactory 
‘E21oCompletion 名 Type 


‘Dh Semaphore 
[Session 


Ca) symbolicLink 


| loCompletionReserve | UserApcReserve 
i Job iD WindowsStation 
二 Key , i WmiGuid 


图 2-7 使 用 WinObj 枚 举 的 执行 体 对 象 


> 安全 管理 器 :守护 操作 系统 资源 ,执行 对 运行 时 对 象 的 保护 和 审计 。 
除 此 之 外 ,在 Windows XP 系统 中 ,还 包括 Prefetch 预 取 管理 需 ,在 Windows Vista 之 后 它 
演进 为 Superfetch 管理 医 。 预 取 技 术 的 基本 思路 是 :在 载 入 某 个 程序 之 前 ,预先 从 人 硬盘 中 载 
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入 一 部 分 该 程序 运行 时 所 需 的 数据 到 物理 内 存 中 ,这 样 便 能 加 快 程序 的 司 动 速度 。 当 然 ,这 
样 做 会 拖累 内 存 使 用 ,用 户 可 以 选择 关闭 预 取 策略 。 

执行 体 的 下 一 层 就 是 我 们 第 说 的 Windows 内 核 核心 ,这 一 层 是 Windows 系统 中 最 重要 
的 部 分 ,包括 了 许多 数据 结构 内核 对象, 执行 代码 、 系 统 调度 和 运行 机 制 \ 异 第 处 理 和 分 发 
机 制 、 多 处 理 融 同 步 机 制 等 。 例 如 SSDT IDT .CDT TSS 等 核心 数据 结构 ,DPC 机 制 ,APC 机 
制 ,系统 调用 相关 机 制 ,线程 切换 机 制 ,异常 处 理 相关 机 制 等 均 在 这 一 层 实现 ,具体 的 承载 者 
是 ntoskrnl. exe 中 偏 下 面 的 一 层 。ntoskrnl. exe 虽然 是 EXE 文件 ,但 却 不 是 一 般 意 义 上 的 可 
执行 文件 ,. exe 后 缀 名 只 是 表示 它 符 合 Windows PE 文件 格式 并 输出 了 一 些 接口 而 已 。 而 
win32. sys 是 Windows 子 系 统 在 内 核 态 的 部 分 ,主要 负责 与 图 形 图 像 相关 的 处 理 。 对 于 进程 
和 线程 ,在 用 户 态 层 ,执行 体 层 和 内 核 核心 层 分 别 有 相 应 的 数据 结构 进行 换 述 ,例如 线程 的 
TEB ETHREAD KTHREAD 数据 结构 ,分 别 对 应 上 述 三 个 层次 ,以 方便 每 个 层次 的 访问 。 

设备 驱动 一 般 分 为 便 件 设备 驱动 .文件 系统 驱动 .网 络 协议 栈 驱 动 .过 滤 型 驱动 等 儿 种 
类 型 。 而 IO 驱动 主要 是 指 与 输入 输出 相关 的 驱动 程序 ,其 中 包括 WO 设备 直接 相关 的 驱 
动 .协议 栈 驱 动 .磁盘 驱动 文件 系统 驱动 等 。 文 件 系统 驱动 和 协议 栈 驱 动 一 部 分 在 执行 体 
中 ,与 VO 管理 融 关 系 密 切 ; 态 一 部 分 是 与 内 核 核 心 层 平 齐 的 ,例如 协议 栈 驱 动 的 中 间 部 分 。 
而 过 滤 型 驱动 的 主要 作用 是 针对 IRP( 包括 文件 读 写 和 网 络 读 写 ) 进行 诸如 加 解密 增加 附 
加 信息 .修改 数据 结构 等 操作 。 

内 核 核 心 层 的 下 一 层 是 各 种 小 端口 驱动 和 其 他 底层 驱动 ,例如 网 卡 小 端口 驱动 输入 类 
设备 驱动 .磁盘 小 端口 驱动 和 其 他 一 些小 端口 /底层 驱动 。 这 部 分 驱动 向 上 与 内 核 核心 和 了 
0 类 驱动 打交道 , 回 下 与 HAL 打 交 书 ,基本 上 是 一 些 类 驱动 ,作为 底层 人 硬件 的 共性 服务 

HAL( Hardware Abstraction Layer, 便 件 抽象 层 ) 是 微软 为 了 保证 整个 系统 的 兼容 性 和 稳 
定性 而 提出 的 ,其 承载 的 库 文 件 是 hal. 岂 。 内 核 核心 层 也 要 依赖 hal. dl ,同时 hal. dl 也 依赖 
于 内 核 核 心 层 , 如 图 2-8 和 2 一 9 所 示 。HAL 的 设计 初衷 是 内 核 核 心 不 需 要 直接 与 底层 便 
件 (对 应 的 便 件 驱动 ) 卫 接 打 交 志 ,将 便 件 差别 与 操作 系统 进行 抽象 解 看 ,因此 叫 作 人 硬件 抽象 
层 , 这 也 是 层次 化 思想 在 Windows 中 的 具体 体现 。 同 时 ,移植 一 种 新 的 便 件 到 系统 中 时 , 需 
要 安 净 的 驱动 模块 也 可 以 做 到 最 简化 ,因为 大 部 分 共性 服务 已 经 在 HAL 及 其 上 层 中 实现 
本 ,底层 设备 的 厂家 只 宕 要 按照 HAL 的 接口 与 数据 结构 进行 对 接 即 可 。HAL 的 下 层 束 是 蚀 
件 层 , 主 要 包括 各 种 型 号 设备 的 最 底层 驱动 ,实现 的 是 针对 有 具体 设备 的 个 性 化 功能 ,例如 菏 
型 网 卡 的 驱动 等 。 

综 上 所 述 ,Windows 系统 是 个 分 层 的 系统 ,但 是 各 个 层次 中 也 夹杂 着 一 些 跨越 了 几 个 层 
次 的 垂直 条 审 ,这 是 由 历史 和 技术 限制 共同 造成 的 。 例 如 网 络 协议 栈 驱 动 和 IO 管理 融 共 
同位 于 执行 体 层 ,因为 涉及 的 内 核 核心 部 分 很 少 , 因 此 其 协议 栈 垂直 地 从 执行 体 层 览 越 到 小 
疡 口 驱动 层 , 甚 至 百 接 路 越 到 HAL。 这 样 虽然 打 乱 了 分 层 的 清晰 性 ,但 也 设 有 什么 特别 不 合 
理 的 地 方 。Windows 系统 毕竟 是 一 矢 完 善 的 兼容 于 各 种 处 理 带 的 庞大 操作 系统 ,因此 也 不 
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能 做 到 全 盘 化 的 条 市 分 离 。 
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W036590 
We 
00376580 
D3765C0 
D003765D0 
W037r65EU 
DO03765F0 
UU3 bu 
D00376610 
QO0376620 
00376620 
QO0376640 
O376650 
D0376660 
W037rb6b 10 
D00376680 
W0376630 
00376680 
00376680 
D03766C0 
003766D0 
003766E0 
D03766F0 
00376700 
D0376710 
W036re0 
00376730 
00376740 
D0376750 
D0376760 
00376770 
D0376780 
00376790 


hddr : 0003C080 Hex FB Dec. 


盘 蝇 避 于 
D003BD0 
D003BDD0 
D003BEDED0 
0003EDE0 
U03BE00 
0003BE1D0 
O0003BE20 
O0003BE30 
QU0U3BEAU 
0003BES50 
N003BEC0 
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0003BESD 
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O0003BEAU 
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0003BECO 
0003BEDU 
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U0UdJBEEU0 
0003BE00 
0003BE10 
003BE 20 
O003BE30 
0003BE40 
0003BES0 
0003BE60 
UUU03BE /10 
0003BES0 
O003BE 90 
由 UUSEE 二 
D003BEEV 
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O003BELDO 
V03BEEEDO 
DIO03BEFUV 
O003C000 
0003C010 
D0003C020 
O003C030 
0003C040 
DOO03C050 
DODO 
O003Cc070 
O003C080 
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- DD OE 
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[本 


/EEME 
PP 


二 Hn 时 
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的 的 


中 nA A 
而 ， 


时 码 


哆 层 前 汪 哆 而 剖面 交友 
0 


db 


.加 品 


hal. dll 也 反 向 调用 ntoskrnl. exe 中 的 接口 


另外 ,Windows 也 是 一 个 基于 对 称 多 处 理 问 (SMP) 架 构 的 操作 系统 ,其 使 用 的 所 有 处理 
共享 统一 的 主 存 (但 每 个 处 理 器 都 有 自己 的 缓存 ) , 且 无 论 内 核 态 线程 还 是 用 户 态 线程 均 
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可 以 被 调度 到 任何 处 理 器 上 运行 [与 非 对 称 多 处 理 器 (ASMP ) 架构 的 操作 系统 不 同 ,ASMP 
架构 操作 系统 的 内 核 态 代码 需要 在 主 CPU 上 运行 ,用 户 态 代码 只 能 在 其 他 CPU 上 运行 ] 。 
同时 , Windows 也 支持 多 核 . 超 线程 和 非 统 一 内 存 存 取 (NUMA ) 三 种 特性 。 针 对 超 线程 架构 ， 
原本 Windows 将 CPU 的 物理 核心 看 作 线程 调度 的 承载 单元 ,而 现在 将 逻辑 核心 看 作 承 载 单 
元 ;对 于 NUMA 架构 ,Windows 仍然 将 其 看 作 基 于 对 称 多 处 理 器 的 架构 形态 ,用 户 态 和 内 核 
态 线程 仍然 可 以 被 调度 到 任何 处 理 器 上 运行 ,只 是 访问 本 地 主 存 的 速度 快 一 点 ,访问 远 端 主 
存 的 速度 稍 慢 一 点 而 已 。 


2.3 WOW014 


WoW64( Windows-on-Windows 64-bit) 是 一 个 Windows 子 系 统 , 为 32 位 应 用 程序 提供 了 
模拟 执行 环境 (32 位 环境 ) ,相当 于 在 64 位 环境 下 建立 了 一 个 32 位 的 子 系统 ,是 64 位 系统 
中 Win32 系统 的 仿真 ,以 方便 大 多 数 应 用 程序 无 需 修 改 而 直接 运行 在 Windows 64 位 系统 
上 。WoW64 是 用 户 态 空间 的 模块 ,位 于 32 位 ntdll. dl 之 下 .内 核 执 行 体 层 之 上 ,由 三 个 DLL 
文 持 实现 ， 

> wow64. dl :负责 32 位 进程 线程 创建 ,并 且 挂 钓 异常 分 发 归 数 和 64 位 ntdll. dll、 

ntoskrnl. exe 叶 出 的 基本 系统 调用 ,同时 也 支持 文件 和 注册 表 重 定 问 。 

> wow64win. dll: 挂 钧 了 win32k. sys .win32u. dll 导出 的 GUI 系统 调用 。 

> wow64cpu. dl :负责 CPU 的 32 位 和 64 位 的 切换 ,提供 与 CPU 体系 结构 相关 的 文 持 。 

WoW64 在 64 位 系统 中 的 位 置 如 图 2 -10 所 示 , 其 所 有 库 以 及 模拟 出 来 的 32 位 运行 环 
境 都 位 于 用 户 态 内 存 空间 。 


32 伍 记 用 程 友 


gdi32.dll 32firntdll.dll use32.dll 


wowod4cpu.dll 


:5 
I 
Et 


Wowe64 .dj Wowodwin.dll 


64fryintdll.dll 


2 
图 2-10 ”Wow64 在 64 位 Windows 系统 中 的 位 置 
在 进程 创建 过 程 中 ,进程 管理 器 将 原生 的 64 位 的 ntdll. dl 和 32 位 的 ntdll. dll 一 起 映射 
到 虚拟 地 址 空间 中 。 进 程 初始 化 的 时 候 ,会 首先 调用 wow64. dll 的 进程 初始 化 代码 ,然后 建 
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立 32 位 的 运行 环境 (例如 CPU 切换 到 32 位 模式 下 ,开始 执行 32 位 的 DLL 加 载 需 ) ,之 后 的 
初始 化 和 运行 过 程 与 32 位 原生 系统 的 一 模 一 样 。 

同时 ,64 位 原生 系统 库 位 于 64 位 Windows 系统 的 Windows \System32 目录 下 ,也 同样 需 
要 将 该 目录 有 映射 到 Windows\Syswow64 目录 中 ,那里 面 存 放 有 32 位 用 户 态 的 系统 库 。 例 如 
在 作者 的 系统 中 以 0llyDbg 运行 某 应 用 程序 ,可 以 看 到 在 可 执行 模块 加 载 序 列 中 ,除了 在 
EXE 根 目 录 下 的 业务 库 外 ,还 加 载 了 Windows\Syswow64 目录 下 32 位 的 系统 库 和 Windows\ 
System32 目录 下 64 位 的 原生 系统 库 , 如 图 2 一 11 所 示 。 中 间 互 通 的 桥梁 就 是 WoW64 。 

虽然 其 他 的 32 位 系统 库 仍 然 是 调用 32 位 的 ntdll. dll( Windows \Syswow64 目录 下 ) ,但 
在 32 位 的 ntdll. dll 进入 系统 调用 时 就 不 直接 调用 sysenter( 后 文 详 细 介 绍 ) 命令 了 , 而 变 成 
了 call TEB. WOW32Reserved ,这 个 字段 保存 了 32 位 回 64 位 切换 的 Shell Code( 跳板 ) 地址。 
这 个 跳板 中 包含 一 个 长 跳 转 ,以 跳 转 到 wow64cpu. dl 中 ,这 是 个 64 位 的 模块 。 在 完成 了 
CPU 从 32 位 向 64 位 模式 切换 以 后 便 开 始 调用 64 位 的 原生 ntdll. dl 了 。 
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训 KRERNHEL32, | C:\Windows systenta% netutils.d1l 
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= 
= 
= 
= 
= 
= 
= 
加 
= 
= 
= 


[= 
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BG 1 下 本 了 四 并 到 全 FF 76 F514 | API- in C:\Windows systease, LMHMa .DLL 
学 号 二 
EE | 1 CE C:\Windows\sSysWoi ntdll -dll 
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图 2-1L 某 32 位 应 用 软件 加 载 后 的 内 存 模块 列表 


WoW64 是 通过 挂钩 技术 实现 从 32 位 到 64 位 切换 的 ,包括 系统 调用 、APC 分 发 . 异 第 分 
发 等 。 由 于 WoW64 对 相关 的 库 进 行 了 挂钩 ,并且 需要 从 32 位 切换 到 64 位 ,例如 堆栈 处 理 、 
参数 处 理 .调用 框 损 切换 等 ,因此 多 了 很 多 切换 的 调用 步骤 ,会 一 定 程度 上 影响 执行 效率 。 
WoW64 进程 包含 2 个 版 本 的 ntdll. dl。 第 一 个 版 本 是 32 位 的 ,负责 将 系统 调用 转 到 WoW64 
环境 下 ,并 在 该 环境 下 调整 调用 框架 以 适应 64 位 的 ABI; 第 二 个 版 本 就 是 64 位 系统 的 原生 
ntdll. dl 了 , 它 是 锌 WoW64 环境 调用 的 ,人 负责 用 户 态 模式 到 内 核 态 模式 的 切换 ,WoW64 的 运 
行 视图 如 图 2 - 12 所 示 。 本 文 涉 及 的 挂钩 技术 在 后 面 章节 会 有 详细 描述 。 


ssasas y 


在 WoW64 体系 结构 下 ,进程 空间 .系统 调用 等 机 制 的 实现 都 是 与 32 位 不 同 的 ; 

> WoW64 进程 的 地 址 空间 布局 :WoW64 进程 的 地 址 空间 可 以 是 2 GB ,也 可 以 是 4 GB， 
这 取决 于 是 否 开 局 大 地 址 空间 感知 标志 。 

> WoW64 系统 调用 :可 执行 文件 首先 加 载 64 位 的 ntdll. dl ,再 加 载 32 位 的 ntdll. dll, 然 
后 加 载 模式 转换 的 DLL( wow64. dl .wow64win. dl 和 wow64cpu. dl) 和 可 执行 文件 本 号 
依赖 的 诸多 模块 。 线 程 使 用 wow64cpul X86SwitchTo64BitMode 国 数 从 32 位 切换 到 64 
位 ,返回 时 则 通过 wow64cpul CpupReturnFromSimulatedCode 国 数 从 64 位 切换 回 32 位 。 

> 文件 系统 重 定向 :为 了 降低 应 用 程序 移植 代价 ,所 有 相关 API 将 Windows\System32 日 
录 蔡 换 为 Windows\Syswow64 ,使 用 目录 重 定向 实现 文件 系统 重 定 回 。 


64 位 


wow64cpu.dll 
wow64win.dll 三 


NtOsKrnl( 内 核 ) 


图 2-12 32 位 进程 在 64 位 环境 下 的 运行 视图 ( 图 片 来 自 CSDN ) 


本 章 小 结 


Windows 是 目前 应 用 最 为 广泛 的 系统 ,具有 悠久 的 历史 ,在 桌面 机 和 服务 器 中 均 有 广泛 
的 布局 。 特 别 是 从 NT5. 0 内 核 开 始 的 Windows 2000 及 其 后 续 版 本 的 系统 在 当前 的 X86/ 
X64 平台 中 占有 决定 性 的 份额 ,其 与 Intel 的 组 合 也 被 称 为 "Wintel 联盟 ”。 

本 章 首 先 简要 介绍 了 Windows 系统 的 历史 沿革 ,然后 讲述 了 系统 架构 ,包括 两 个 空间 
(用 户 态 空间 和 内 核 态 空间 ) .各 种 管理 器 以 及 各 种 系统 服务 ,最 后 介绍 了 作为 32 位 和 64 位 
进程 转换 媒介 的 WoW64 系统 的 架构 和 功能 。 
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系统 调用 是 Windows 操作 系统 中 最 为 重要 的 内 容 , 其 下 接 描述 了 用 户 态 进程 /线程 使 用 
系统 资源 的 机 制 ,规则 和 框架 ,包括 用 户 态 (R3 ) 和 内 核 态 (R0) 的 切换 机 制 .堆栈 切换 机 人 制 、 
栈 帧 的 形成 与 消亡 内核 中 各 种 数据 结构 的 配合 .调用 序列 等 。 本 章 我 们 将 以 Win32 API 的 
ReadFile 接口 为 例 , 按 照 图 3 一 1 所 示 提 纲 进行 详细 介绍 。 


系统 调用 是 操作 系统 内 核 最 重要 的 组 成 部 分 


奇 存 器 
堆栈 结构 
系统 调用 结构 ; SSDT/IDT 
预备 知识 : 全 局 结构 : GDT/LDT 


CPU 结构 : KPCR/KPRCB 
线程 结构 : KTHREAD/ETHREAD/W32THREADJ/TEB 
线程 切换 结构 : TSS 


调用 约定 
Windows 2a000 以 前 的 版 本 ， 以 中 断 作 为 状 志 切 摘 的 途径 
"~ 


线程 数据 段 状 态 切换 
步骤 1 : 执行 切换 // 系 统 调用 的 前 期 流程 | 保存 现场 er ray 


线程 代码 段 状态 切换 SE 
EE |;: 因 | 传统 系统 调用 ( 自 陷 型 】 =| 步 台 2 .商行 前 要 。 新 堆栈 中 构造 自 陷 框 架 
/ = 寄存 顺 内 容 切换 
“| 参数 复制 到 新 堆栈 
by 步 要 3 : 执行 跳板 
这 六 凑 | 一 找到 系统 调用 服务 总 入 口 


ss 


hs 新 堆 枫 中 自 陷 框架 消除 和 配 平 


| 返回 用 户 态 空间 
三 此 前 要 执行 APC 


Windows 2000 及 以 后 的 版 本 ， 以 新 增 的 专 有 表 存 器 作为 支撑 
司 速 未 统 调 用 引 上 砂 要 1 : 执行 切 撞 /| 相当 于 传统 型 的 执行 切换 执行 前 奏 ， 执 行 跳板 
步骤 2 : 执行 返回 // 相 当 于 传统 型 的 执行 尾声 


图 3-1 本 章 提纲 


3.1 预备 知识 


本 章 中 我 们 先 介绍 一 些 基 础 知识 ,包括 寄存 带 .堆栈 .调用 约定 以 及 Windows 系统 中 重 
要 且 第 用 的 数据 结构 。 介 绍 的 时 候 也 会 视 情况 将 这 些 数据 结构 的 使 用 场景 加 以 说 明 , 以 便 
加 深 读者 对 这 些 基础 数据 结构 调用 机 制 和 寄存 各 的 理解 。 


CJ 应 用 软件 开发 协议 栈 a 


3.1.1 寄存 硬 


在 X86 架构 下 ,寄存 器 大 致 分 为 以 下 几 类 : 
> 数据 寄存 器 :都 是 32 位 的 ,但 也 可 以 作为 16 位 寄存 需 或 者 8 位 寄存 器 使 用 。 
。 EAX :一 般 作 为 累加 句 使 用 ,也 篆 作 为 图 数 返回 值 的 承载 寄存 顺 , 保 存 32 位 地 址 
等 数据 内 容 也 没有 什么 问题 ,并 没有 什么 特别 的 使 用 局 限 。 
。 EBX :一 般 作 为 地 址 指针 寄存 器 ,也 可 以 用 来 存储 数据 内 容 。 
。 ECX :各 用 作 计 数 需 ,特别 是 在 执行 循环 的 时 候 用 于 保存 循环 次 数 。 
。 EDX: 既 可 以 用 来 保存 数据 ,也 可 以 用 来 保存 地 址 ,没有 使 用 局 限 。 
> 变 址 寄存 器 :常用 于 字符 串 或 者 数据 块 的 找 贝 移动 。 
。 ESI: 销 指 回 被 移动 / 捞 贝 的 字符 串 (Source ) 。 
e。 EDI: 常 指向 字符 串 找 贝 的 目的 地 址 ( Destination ) 。 
> 堆栈 指针 寄存 器 :这 是 两 个 比较 重要 的 寄存 需 ,一 般 用 来 进行 堆栈 操作 而 不 能 被 用 于 
其 他 操作 。 
。 ESP: 指 向 堆栈 栈 顶 , 即 堆栈 当前 弹 入 弹出 的 位 置 。 
。 EBP: 扩展 基 址 指针 寄存 融 , 指 回采 个 栈 帧 的 基 址 。 一 个 堆栈 中 可 能 有 多 个 栈 帧 ， 
EBP 指向 最 靠近 栈 顶 的 栈 帧 的 基 址 (当前 栈 帧 的 低 址 ) 。 
> 标志 寄存 器 EFLAGS :用 于 控制 任务 状态 .模式 切换 .中 断 处 理 .指令 追踪 和 访问 权限 
管理 ,寄存 右 中 的 标志 位 需要 特权 指令 代码 才 可 以 修改 。EFLAGS 寄存 部 各 位 的 含义 
如 图 3 一 2 所 示 。 


31D023282262524232221201918 17 16151413 121110 9 2 10 


刁 了 机 气节 
1 
| TI Ee IFIF FIFIF EF 
PIF L 


x ID Flag (ID 

x irtual Interrupt Pending (VIP) 

XX Virlual Interrupt Flag (VIF) 

XX Alignment Check / Access Control (AC) 
其 Virtual-8086 Mode (VM ) 

站 Resume Flag (RF 

x Nested Task (NT 

站 LO Privilege Level (IOPL) 

Ss Overflow Flag (OF) 


C Direction Flag (DF 
XX Interrupt Enable Flag (IF) 


S Parity Flag (PF) 
Ss Carmy Flag (CF) 


S Indicates a Status Flag 


C Indicates a Control Flag 
x Indicates a System Flag 


Reserved bit positions. DO NOT USE. 
Always Sel to values proeviously read. 


3 一 2 标志 寄存 器 EFLAGS 示意 图 (图片 来 自 CSDN) 
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> 段 寄存 器 :内 存 他 辑 地 址 是 由 段 守 和 存 右 的 值 (内 含 段 基 址 ) 加 上 一 个 偏 移 量 ( Offset) 组 
成 的 ,以 便 使 用 较 少 的 位 数 表示 一 个 很 大 的 地 址 空间 ,这 种 表示 方式 正 是 根据 内 存 分 
段 的 管理 模式 而 设置 的 。 段 寄存 器 也 是 比较 特殊 的 寄存 器 ,为 了 加 快 段 的 访问 速度 ， 
段 寄 存 需 分 为 了 两 部 分 。 一 部 分 是 16 位 的 可 见 部 分 ,如 下 面 的 6 个 段 寄 存 器 所 示 ， 
表示 条 个 段 在 GDTALDT 中 的 段 选择 子 ( Selector) ,其 中 会 有 一 位 表示 选择 CDT 还 是 
LDT; 男 一 部 分 是 64 位 的 不 可 见 部 分 ,是 段 寄 存 需 指 加 的 Selector 在 GDT/LDT 中 有 具 
体 段 描述 符 的 值 ,之 所 以 要 把 具体 段 描述 符 的 值 存 于 此 就 是 为 了 加 快 访问 速度 。 由 
于 每 个 GDT/LDT 描述 符 是 8 个 字 节 ,因此 不 可 见 部 分 也 占用 8 个 字 节 (64 位 )。 

e CS. 即 Code Segment Register,16 位 代码 段 寄 存 间 ,保存 了 当前 线程 的 用 户 态 /内 核 
态 空 间 代 码 段 的 选择 子 。 

。 DS: 即 Data Segment Register ,16 位 数据 段 寄 存 关 ,保存 了 当前 线程 的 数据 段 (静态 
数据 或 者 全 局 数据 段 ) 的 选择 子 。 

e ES:B] Extra Segment Register,16 位 附加 段 寄 存 顺 ,保存 了 当前 线程 的 附加 数据 段 
的 选择 子 。 

e。 FS : 即 Flag Segment Register,16 位 标志 上 段 寄存 器 。 在 用 户 态 下 ,FS 段 值 是 当前 线 
程 的 线程 环境 块 (TEB ) 在 GDT 中 的 选择 子 ;在 内 核 态 下 ,FS 段 值 是 系统 的 内 核 处 
理 器 控制 区 (KPCR) 在 GDT 中 的 选择 子 , KPCR 区 域 中 保存 了 与 处 理 器 相关 的 重 
要 域 值 ,如 GDT 与 IDT 的 线性 地 址 等 ,后 文 将 有 详细 描述 。 

® GS:EA] Clobal Seement Register,16 位 全 局 段 寄 存 器 。 

® SS.B] Stack Segment Register, 16 位 堆栈 段 寄 存 表 ,保存 了 当前 线程 的 堆栈 段 选 

> 控制 寄存 器 :决定 处 理 带 的 操作 模式 和 当前 执行 任务 的 一 些 特征 。 

。 CR0 :保存 控制 系统 的 工作 模式 和 人 处理 器 的 状态 。 

e。 CR1 :保留 未 用 。 

。 CR2 :保存 异常 出 错 的 线性 地 址 。 

e。 CR3 :保存 当前 进程 页 目录 基 址 的 物理 地 址 和 PCDVPWT 标志 位 (与 Cache 有 关 ) 。 

。 CR4 :保存 一 些 结构 的 扩展 ,表明 对 于 特定 的 处 理 硕 和 操作 系统 的 执行 支持 情况 。 

> 调试 寄存 器 : 主要 作用 是 调试 应 用 程序 代码 系统 程序 代码 ,开发 多 任务 操作 系统 ,并 
监视 代码 的 运行 和 处 理 器 的 性 能 。 包 含 以 下 8 个 寄存 器 :DRO DRI1 .DR2 .DR3 .DR4、 
DR5 .DR6 .DR7 ,这 里 不 做 详细 描述 。 

。 GDTR :全 局 摘 述 符 表 寄 存 顺 ,48 位 ,用 来 存放 全 局 描述 符 表 ( GDT) 的 32 位 线性 
基地 址 和 16 位 的 界限 值 (limit) 。 

。 IDTR :中 汤 描 述 符 表 寄 存 右 ,48 位 ,用 来 存放 中 断 描述 符 表 (IDT) 的 32 位 线性 基 
地 址 和 16 位 的 界限 值 。 
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。 LDTR :局 部 摘 述 符 表 寄存 器 ,16 位 ,用 来 存放 局 部 描述 符 表 (LDT) 的 16 位 选择 
子 。LDTR 还 附 有 一 个 隐 含 的 描述 符 高 速 缓冲 寄存 器 (64 位 ) ,用 来 存放 LDT 中 所 
选段 描述 符 (8 字 节 ) 的 值 ,目的 只 是 为 了 加 快 访问 速度 。 
。 TR :任务 状态 有 段 寄 存 关 ,16 位 ,用 来 存放 任务 状态 段 (TSS ) 的 16 位 选择 子 。 相 应 
地 , 它 也 有 一 个 隐 含 的 撒 述 符 高 速 缓冲 寄存 器 (64 位 ) ,用 来 存放 TSS 的 段 描 述 符 
(8 字 节 )。 
CPU 在 写 和 人 上 述 两 个 寄存 带 时 ,也 填充 了 隐 蕊 的 部 分 。 系 统 地 址 寄存 右 示 意图 如 图 3 一 3 
所 示 。 


32 位 16 位 长 度 弄 值 
-oom on 


线性 基地 址 表 的 实际 长 度 值 


64 位 不 可 见 部 分 16 位 可 见 部 分 


隐藏 段 描述 符 洗 择 LDTR. TR 


图 3-3 系统 地 址 寄存 器 示意 图 


> 指令 指针 寄存 器 EIP :32 位 寄存 带 , 低 16 位 称 为 IP, 用 于 兼容 16 位 CPU ,其 存储 的 内 
容 是 下 一 条 要 读 人 CPU 的 指令 在 虚拟 内 存 中 的 俩 移 地 址 。 当 一 个 程序 开始 运行 时 ， 
系统 把 EIP 清 零 。 每 读 入 一 条 指令 ,EIP 自动 增加 所 读 指 令 的 字 节 数目 。 在 线程 切 
换 、APC( 异步 过 程 调用 ) ,挂钩 等 机 制 中 会 频繁 使 用 EIP 寄存 骨 。 

这 些 寄 存 需 既是 为 了 满足 X86 体系 结构 的 要 求 ,也 是 为 了 加 快 数据 和 代码 访问 速度 的 
需要 。 因 为 寄存 器 是 宜人 到 处理 器 中 的 ,与 CU( 计 算 单 元 ) 的 连接 是 通过 高 速 总 线 ( 例 如 
QPI) 实现 的 ,所 以 比 访问 主 存 的 速度 提高 至 少 一 个 数量 级 。 而 对 于 寄存 器 中 具体 存 什 么 数 
据 , 既 与 处 理 融 厂家 的 硬性 要 求 有 关 ,也 与 操作 系统 定义 的 灵活 性 有 关 。 

X64 体系 结构 下 ,寄存 顺 也 做 了 相应 的 扩展 和 更 改 , 包 括 : 

> 寄存 器 宽度 扩展 :除了 段 寄 存 器 和 EFLAGS 寄存 器 仍然 是 32 位 的 外 ,其 他 寄存 器 都 
扩展 为 64 位 的 。 

> 寄存 器 数量 扩展 :新 增 了 8 个 通用 寄存 器 ,R8 ~ R15。 

。 X64 体系 结构 下 定义 了 一 个 可 扩展 的 不 可 变 寄 存 器 ( 图 数 调用 过 程 中 值 被 压 栈 保 
存 起 来 的 寄存 希 ) 集合 。 
e。 子 数 调用 时 ,前 4 个 参数 通过 RCX .RDX .R8 和 R9 寄存 器 传递 ,因此 X64 体系 结 
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构 下 进行 图 数 调 用 时 ,如 条 参数 个 数 不 大 于 4 个 , 则 相当 于 FastCall 类 型 。 

。 RBP 不 再 用 作 栈 帧 寄存 器 ,调试 时 也 不 再 使 用 RBP 回溯 堆栈 ,在 X64 体系 结构 下 
RBP 寄存 融 是 通用 寄存 上 需 。 

。 X64 体系 结构 下 使 用 GS 寄存 融 而 非 FS 寄存 融 指 问 线 程 的 TEB 或 内 核 的 KPCR， 
当然 在 运行 WoW64 进程 的 时 候 除 外 ,此 时 仍 按照 X86 体系 结构 的 定义 进行 指 问 。 

e X64 体系 结构 下 Trap Frame 目 陷 框架 不 再 包括 不 可 变 寄 存 需 的 内 容 了 ,需要 使 用 
的 时 候 调 用 序言 ( Prolog ) 代码 压 栈 保存 ， 通过 堆栈 而 非 Trap Frame 获取 不 可 变 寄 
存 带 的 内 容 。 


3.1.2 堆栈 


“堆栈 "由 两 个 词组 成 ,一 个 是 “ 堆 ” ,一 个 是 
“ 栈 "。 在 系统 调用 中 ,我 们 重点 强调 的 是 栈 , 因 
此 在 本 文中 没有 明确 说 明 时 ,堆栈 就 专 指 栈 。 


栈 是 一 种 后 进 先 出 的 数据 结构 ,用 于 保存 一 | 
些 使 用 频繁 但 是 体 量 小 的 数据 ,例如 函数 的 调用 
框架 . 自 陷 框架 等 。 由 于 后 进 先 出 的 特性 , 栈 是 
从 高 址 回 低 址 扩展 的 ( 栈 的 生长 方向 ) ,数据 进 栈 
的 过 程 叫 压 栈 (push) ,出 栈 就 叫 弹 栈 (pop) , 栈 的 E 
底部 (高 址 位 置 ) 叫 作 栈 底 , 低 址 部 分 (push 和 
pop 发 生 的 位 置 ) 叫 作 栈 项 。 在 X86 体系 结构 下 ， - 
SS 寄存 融和 常用 来 指示 栈 底 ,ESP 寄存 硕 用 来 指示 
栈 顶 ,EBP 寄存 器 用 来 指示 当前 栈 帧 的 基 址 ( 低 ai 


址 位 置 ) 。 堆 栈 结构 如 图 3 -4 所 示 。 3 -4 ”堆栈 结构 示意 医 

线程 初始 化 的 时 候 ,堆栈 大 小 会 有 个 默认 值 , 例 如 4 KB( 一 个 内 存 页 面 的 大 小 )。 但 这 
并 不 意味 着 堆栈 大 小 不 能 调整 ,实际 上 这 个 4 KB 的 默认 大 小 的 内 存 是 提交 状态 的 ,还 有 4 
KB 内 存 是 保留 状态 的 (第 二 个 内 存 页 面 ) ,意味 着 随时 可 以 投入 使 用 并 转 入 提交 状态 。 当 第 
二 个 内 存 页 面 转 人 提交 状态 时 ,就 意味 着 已 经 使 用 到 第 二 个 页 面 了 , 那 就 再 扩展 第 三 个 内 存 
页 面 为 保留 状态 ,如 此 往复 。 

这 里 有 必要 把 线程 函数、 堆栈 的 概念 串联 起 来 。 函 数 是 一 个 指令 序列 ,是 要 被 CPU 执 
行 的 实体 ,而 执行 的 形态 就 是 线程 。 线 程 是 一 个 时 间 序 列 , 消 数 (指令 序列 ) 是 在 这 个 (时 间 
序列 ) 中 执行 的 。 在 执行 的 过 程 中 可 能 要 传递 参数 或 者 保存 临时 变量 ( 水 数 调 用 时 构造 调用 
框架 ) ,也 可 能 要 保存 一 些 返 回 值 或 者 寄存 器 的 值 ( 构 建 栈 帧 ) ,此 时 这 些 数据 总 要 有 个 地 方 
存 起 来 ,这 就 是 栈 。 

在 栈 的 生命 周期 中 ,一 个 基本 原则 叫 作 配 平 。 也 就 是 说 , 当 调 用 一 个 函数 的 时 候 , 无 论 
是 形成 栈 帧 还 是 调用 框 染 , 当 这 个 函数 执行 完毕 时 , 栈 都 恢复 到 调用 之 前 的 状态 ,“ 好 信 好 还 
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再 从 不 难 ”。 

用 户 态 线程 的 生命 周期 中 有 可 能 进行 一 些 系统 调用 ,也 有 可 能 目 始 至 终 都 没有 系统 调 
用 。 前 一 种 情况 线程 会 有 用 户 态 和 内 核 态 之 分 ,后 一 种 情况 自始至终 都 是 用 户 态 。 但 无 论 
怎样 线程 都 有 用 户 态 和 内 核 态 两 个 堆栈 ,具体 位 置 在 KTHREAD 数据 结构 中 指示 。 那 么 为 
什么 要 区 分 用 户 态 堆栈 和 内 核 态 堆栈 呢 ? 在 前 文 介绍 过 ,在 32 位 系统 中 ,用 户 态 位 于 
0x80000000 以 下 的 地 址 空间 ,内 核 态 位 于 0x80000000 以 上 的 地 址 空间 。 在 进行 系统 调用 的 
时 候 ,CPU 状态 就 从 用 户 态 (R3 ) 切换 到 了 内 核 态 (R0 ) 。 但 是 内 核 态 的 CPU 怎么 访问 用 户 
态 的 数据 (用 户 态 堆栈 ) 呢 ?难道 为 了 访问 一 些 数据 再 切 回 用 户 态 ? 那 还 不 如 干脆 再 创建 一 
个 系统 堆栈 ,已 不 是 更 方便 。 


3.1.3 GDT 和 LDT 


1. GDT 

GDT( Global Descriptor Table ,全 局 摘 述 符 表 ) 是 整个 Windows 系统 中 全 部 数据 结构 的 搬 
述 符 表 , 与 IDT 一样 ,每 个 CPU 也 会 有 一 份 对 应 的 GDT,GDTR 指向 GDT 的 物理 地 址 (每 个 
CPU 有 一 个 GDTR)。GDT 中 的 表 项 叫 作 全 局 摘 述 符 ,每 个 摘 述 符 的 长 度 为 8 字 节 (64 位 ) ， 
GDT 的 总 大 小 为 64K ,放置 在 内 存 中 (地 址 可 以 随机 ,但 是 需要 由 CPU 上 的 GDTR 保存 ) ,每 
个 GDT 最 多 含有 8 192 个 表 项 ,其 中 第 一 个 表 项 为 非法 描述 符 , 因 此 合法 的 表 项 最 多 为 8 
191 个 。 这 么 多 表 项 Windows 并 没有 全 都 用 掉 , 因 此 GDT 后 半 部 分 大 多 是 空 表 项 ,这些 空 走 
项 为 GDT 挂钩 提供 了 可 能 。 

下 面 我 们 来 看 一 下 GDT 的 具体 内 容 ,GDT 的 结构 如 图 3 -5 所 示 。 


-=O 
13 位 3 位 


段 末 和 存 癌 


图 3-5 GDT 结构 示意 图 


段 选择 子 ( Selector) 在 段 寄 存 器 中 为 16 位 (可 见 部 分 ) , 低 3 位 是 控制 位 ,表示 请 求 特权 
级 .选择 GDT 还 是 LDT 等 信息 ;高 13 位 是 选择 位 ,表示 具体 要 选择 的 描述 符 在 GCDT/LDT 中 
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的 索引 (从 1 开始 ) ,这 13 位 正好 覆盖 了 GDT/LDT 的 8 192 个 表 项 。 前 文 讲 过 , 当 CPU 从 
GDT 中 读 取 段 揪 述 得 的 时 候 , 搬 述 行 的 值 会 目 动 写 和 人 段 寄存 带 的 64 位 不 可 见 部 分 ,以 节省 
再 一 次 访问 GDT 的 开销 。 

FS 寄存 右 在 用 户 态 ( R3 ) 的 时 候 指向 GDT 中 当前 线程 的 线程 环境 块 (TEB ) 的 选择 子 : 
TEB_SELECTOR(KGDT_R3_TEB); 当 切换 到 内 核 态 (R0) 的 时 候 指 癌 内 核 处 理 硕 控制 块 
KPCR 的 选择 子 :PCR_SELECTOR(KGDT_RO_PCR) 。 从 GDT 和 FS 寄存 器 的 指向 中 可 以 看 
出 ,在 GDT 中 当前 线程 环境 块 CurrentTEB 和 LDT 的 描述 符 是 个 变量 ,因为 随 着 线程 的 切换 ， 
当前 线程 的 TEB 和 LDT 必然 会 变化 。 由 此 我 们 可 以 推 新 出 ,线程 切换 时 GDT 中 的 TEB_ 
SELECTOR 项 会 被 新 的 当前 线程 TEB 重 置 ,但 事实 却 不 是 这 样 。 

原因 很 简单 ,线程 切换 时 ,TEB_SELECTOR 不 变 ,TEB_SELECTOR 指 回 的 TEB 只 是 更 换 
3 个 字段 的 值 ,这 几 个 值 (SS0 、ESP0 和 LO 权限 位 图 ) 在 每 个 TEB 中 都 不 一 样 。 这 样 做 主要 
是 考虑 到 切换 这 几 个 值 的 总 开销 远 远 低 于 切换 TEB_SELECTOR 的 总 开销 。 

我 们 来 直观 感受 下 几 个 选择 子 在 32 位 Windows 系统 中 的 定义 : 


#define KGDT RO CODE 0x8 / /GDT 中 index =1 
tdefine KGDT RO DATA 0x16 / /GDT 中 index =2 
#define KGDT R3 CODE 0x18 //GDT 中 index =3 
Hdefine KGDT R3 DATA 0x20 //GDT 中 index =4 
Hdefine KGDT TSS 0x28 //GDT 中 index =5 
Hdefine KGDT RO PCR 0x30 //GDT 中 index =6 
Hdefine KGDT R3 TEB 0x38 / /GDT 中 index =7 
Hdefine KGDT LDT 0x48 //GDT 中 index =9 


这 里 将 LDT 的 段 选择 子 限 制 死 了 ,体现 了 操作 系统 设计 的 灵活 性 , 既 可 以 在 CDT 中 你 
存 多 个 LDT 的 段 描述 符 供 进程 切换 使 用 ,也 可 以 在 进程 切换 时 只 改变 GDT 中 LDT 的 摘 述 符 
值 ,不 改变 LDTR 中 的 段 选择 子 。 

段 朱 述 符 分 为 三 种 :数据 段 朱 述 符 . 代 码 段 描述 符 、 系 统 段 描述 符 。 三 种 段 描述 符 的 卷 
别 不 是 很 大 ,这 里 就 不 一 一 搬 述 了 。GDT 中 保存 肴 各 个 全 局 结构 的 段 摘 述 符 , 这 些 段 描述 符 
的 结构 如 图 3 -6 所 示 。 

Im 十 7 mi mts m+4 m+3 m+2 m+l Mm 


版 基 址 段 弄 限 
23…'0 15…0 


3 一 6 段 描述 符 结构 示意 图 


可 以 看 出 , 段 描 述 符 中 除了 一 些 控制 位 , 剩 下 的 驶 是 段 基 址 , 段 基 址 + 段 俩 移 就 是 我 们 
要 访问 的 线性 地 址 了 。 
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2. TDT 

LDT( Local Descriptor Table ,局 部 摘 述 符 表 ) 可 以 有 看 干 个 ,每 个 任务 可 以 有 一 个 ,也 可 
以 没有 (任务 的 概念 很 抽象 , 指 完 成 一 个 活动 的 载体 ,达到 某 一 个 目的 的 具体 操作 , 既 可 以 是 
进程 也 可 以 是 线程 。 由 于 每 个 进程 既 有 数据 段 , 又 有 代码 段 ,还 有 堆栈 段 ,LDT 可 以 将 这 些 
数据 集成 在 一 起 ,只 要 改变 LDTR 就 可 以 实现 对 不 同 进程 不 同 段 的 访问 ) 。 每 个 LDT 段 描述 
符 的 长 度 也 是 8 字 节 (64 位 ) ,LDT 的 总 大 小 为 64K, 因 此 每 个 LDT 也 可 以 有 8 192 个 描述 符 
(有 效 描述 符 为 8 191 个 ) 。GDT 是 全 局 性 表 , 因 此 GDT 中 也 含有 LDT 的 段 描述 符 , 对 应 了 
当前 进程 。 同 时 ,LDTR 指向 当前 任务 的 LDT, 而 不 是 每 个 LDT 有 一 个 LDTR , 而 且 LDTR 也 
是 与 CPU 绑 定 的 。 因 此 我 们 可 以 这 样 来 看 两 者 的 关系 :GDT 为 一 级 描述 符 表 ,LDT 为 二 级 
描述 符 表 。LDT 与 任务 有 关 ,但 不 是 所 有 的 任务 都 用 到 LDT。 当 进行 任务 切换 时 ,处 理 需 会 
自动 把 新 任务 LDT 的 段 选 择 子 和 段 描述 符 加 载 进 LDTR 中 。 

LDT 段 描述 和 从 的 定义 与 GDT 一 致 。 访 问 LDT 的 流程 如 下 : 

(1) 从 GDTR 中 获取 GDT 基 址 。 

(2) 从 LDTR 中 获取 要 选择 的 LDT 的 段 选择 子 。 

(3) 访问 GDT 中 对 应 LDT 段 选择 子 的 段 摘 述 符 , 该 段 描述 符 也 同时 加 载 到 LDTR 的 64 
位 不 可 见 部 分 。 

(4) 从 上 述 段 描述 符 中 获取 LDT 段 基 址 ,加 上 上 段 偏 移 , 就 是 我 们 要 访问 的 线性 地 址 了 。 


3.1.4 SSDT 和 1DT 


1 SDT 

SSDT( System Services Descriptor Table ,系统 服务 摘 述 符 表 ) 是 Windows 系统 中 最 重要 的 
数据 结构 。Windows 中 的 系统 调用 功能 痢 是 由 SSDT 来 完成 的 。 内 核 中 导出 的 所 有 系统 调 
用 都 在 SSDT 中 汇聚 和 体现 ,SSDT 基于 系统 服务 编号 进行 索引 以 定位 另 数 人 口 的 内 存 地 址 。 
在 Windows 中 存在 两 个 SSDT ,一 个 是 由 ntoskrml. exe 导出 的 KeServiceDescriptorTable , 另 一 个 
是 ntoskrnl. exe 没有 导出 的 KeServieDescriptorTableShadow( 影 于 SSDT) 。 

KeServiceDescriptorTable 仅 包 括 ntoskrnel. exe 导出 的 图 数 , 并 没有 包括 win32k. sys 导出 
的 图 数 , 如 图 3 -7 所 示 , 也 束 是 说 不 包含 图 形 相 关 的 系统 调用 ,这 部 分 调用 图 数 (GUI 调用 ) 
存放 在 影子 SSDT 中 ,常规 的 非 GUI 的 API 的 系统 调用 ( 称 为 原生 系统 调用 ) 指针 由 
KeServiceDescriptorTable 分 派 也 就 够 了 ,比如 由 kernel32. dll 发 起 的 API 调用 等 ;而 gdi. dl 或 
user. dll 等 GUI 动态 链接 库 发 起 的 系统 调用 指针 则 由 KeServieDescriptorTableShadow 分 派 。 

实际 上 SSDT 并 不 是 仅仅 将 所 有 由 内 核 导 出 的 系统 调用 指针 汇聚 在 一 个 区 域 中 , 而 是 像 
一 个 代理 一 样 把 真正 的 系统 调用 因数 指针 的 数组 地 址 .参数 数组 地 址 等 必要 的 数据 形成 一 
个 数据 结构 记录 下 来 。 我 们 以 KeServiceDescriptorTable 为 例 ,SSDT 数据 结构 如 下 所 示 : 
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| SSDT 物 子 

国 数 名 称 当前 图 数 地 址 是 天 害 挂 徇 ”原始 因数 地 址 当前 国 数 所 在 的 模块 
NtMapUserPhysicalpagess... Oxfffff8g0004aa1810 C:\Windows\system32\ntoskml.exe 
NtWaittForsinglaeQbject Offfffa0004932ae0 CWindows\system32\ntoskml.exe 
NtCalbackReturn Dxfffffe00046e0d40 C:\Windows\system32\ntoskml.exe 
NtReadFile Oxfffff80004936210 CWndows\system32\ntoskml.exe 
NtDeviceIoControlFile Dfffffa0004994dd0 CNIndows\system32\ntoskrnl.exe 
NtWriteFile Offfff80004936c20 CWindows\system32\ntoskmnl.exe 
NtRemoveloCompletion Oxfffffa0004935c50 C:\Windows\system32\ntoskrnl.exe 
NtReleaseSemaphore Oxfffff8000494f0d0 CWndows\system32\ntoskrmnl.exe 
NtReplyWatReceivePort Oca0004927070 C\Wndows\system32\ntosknl.exe 
NtReplyPort Oxfffff80004a784c0 C\Windows\system32\ntosknl.exe 
NtSetInformationThread Oxfffff8000492f860 C:\Windows\system32\ntoskmnl.exe 
NtSetEvent Ciffea000d945B6C CVNndows\system32\ntoskrnl.exe 
NtClose Dxfffffa0004932020 C:\Windows\system32\ntoskmnl.exe 
NtQueryObject Oxfffffa000494alda CVWNndows\system32\ntoskrnl.exe 
NtQueryIinformationFie 0xfffrffea0004b01590 C:\Windows\system32\ntoskmnl.exe 
NtOpenkey Oxffffia00049248a8 C:\Windows\system32\ntoskmnl.exe 
NtEnumerateValuekey Oxfffff8000492a7a0 C\Windows\system32\ntosknl.exe 
NtFindAtom Oxfffff800049937b0 C:\Windows\system32\ntoskrmnl.exe 
NtQueryDefaultLocale Offfff800049102c4 CNndows\system32\ntoskrnl.exe 
NtQuerykey Ddfffffa000492ec30 C\Windows\system32\ntoskml.exe 
NtQueryValuekey Oxfffffa0004930f10 CVNndows\system32\ntoskrnl.exe 


TP sell 前 二 aa aaa 二 sl ss i lls ss i ls ss 


Jj 已 


半数 个 数 : 401, 被 挂 闵 数 个 数 : 0 


3 一 7 Win7 64 位 系统 中 ntoskrnl. exe 导出 的 KeServiceDescriptorTable 


typedef struct SSDT { 


unsidned int * ServiceTableBase; //ServiceRoutineTable 基 址 

unsigned int * ServiceCounterTableBase; //ServiceRoutineTable 中 每 个 服务 被 调用 次 数 的 
计数 右 

unsigned int NumberOfServices; //ServiceRoutineTable 中 有 和 多少 个 系统 调用 服务 

unsigned char # ParamTableBase; / /系统 服务 参数 表 SSPT 基 址 ,存放 了 和 参数 的 字 节 数 


}155DT, * PSSDT 


其 中 ,ServiceTableBase 才 是 真正 的 系统 服务 表 , 里 面 每 4 个 字 节 表示 一 个 系统 调用 国 数 
的 和 人口 基 址 。 在 很 多 杀毒 软件 的 防御 体系 中 要 挂钩 SSDT, 其实 也 就 是 挂钩 ServiceTableBase 


ntoskrnl.exe 


NtReadFile Wd NtReadFile 的 入 口 地 址 
NtCreateFile NtCreateFile 的 入 口 地 址 
NtWriteFile NtWriteFile 的 入 口 地 址 - 


SSDT 


Service LableBase 


ServiceCounterlableBase 
NumberOfServices 


Param [TableBase 


NtReadFile 的 参数 字 节 数 
NtCreateFile 的 参数 守 方 数 


NtWriteFile 的 参数 字 市 数 


3-8 SSDT 结构 示意 图 


KeServieDescriptorTableShadow( 影子 SSDT) 则 包含 了 ntoskrnel. exe 和 win32k. sys 两 部 分 
的 系统 调用 服务 图 数 入 口 。 具 体 数 据 结 构 是 这 样 的 : 
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typedef struct KeServieDescriptorTableShadow { 
KSERVICE TABLE DESCRIPTOR KeServieDescriptorTable; 
KSERVICE TABLE DESCRIPTOR win32KAPISDT; 


//KeServieDescriptorTable 的 基 址 
//win32k.sys 中 GUI 相关 的 系统 调用 


/ /的 基 址 
KSERVICE TABLE DESCRIPTOR NotusedTable; // 未 用 到 
KSERVICE TABLE DESCRIPTOR NotusedTable; // 未 用 到 


}KeServieDescriptorTableShadow, * pKeServieDescriptorTableShadow; 


KeServieDescriptorTableShadow 中 的 第 一 项 就 是 KeServieDescriptorTable 的 基 址 ;第 二 项 
在 win32k. sys( GUI 相关 的 系统 调用 ) 尚未 加 载 的 时 候 为 空 , 在 win32k. sys 初始 化 的 时 候 
Windows 幸 用 KeAddSystemService 将 GUI 相关 的 系统 调用 表 填 充 到 这 个 地 址 ;第 三 .四 项 未 使 
用 。 当 然 ,很 多 的 杀毒 软件 病毒 防御 系统 ,游戏 软件 也 都 会 挂 钧 KeServieDescriptorTableShadow 
中 的 第 二 项 ,以 方便 对 系统 调用 ,图形 显示 等 功能 进行 接管 和 改造 。 

Windows 系统 对 于 厚生 系统 调用 默认 是 采用 KeServieDescriptorTable 的 ， 但 当当 前 线程 
第 一 次 调用 GUI 的 接口 时 ,系统 会 将 KeServieDescriptorTableShadow 作为 线程 的 默认 服务 表 ， 
因此 这 中 间 存 在 一 个 切换 。 影 子 SSDT 中 的 函数 如 图 3 一 9 所 示 。 


55DT 钧 子 “||5hadow 55DT 和 钧 子 


0 


| 


NtUserGetThreadstate 
NtUserPeekMessage 
NtUserCallOneParam 
NtUserGetkeyState 
NtUserInvaldateRect 
NtUserCallNoparam 
NtUserGetMessage 
NtUserMessagecall 
NtGdiBtBt 
NtGdiGetCharSet 
NtUserSetDC 
NtGdiselectBittmap 
NtUserWatMessage 
NtUserTranshteMessage 
NtUSerGetprop 
NtUserPostMessage 
NtUserQueryrWindow 


NtUserTranshteAccelerator 


NtGdiFlush 
NtUserRedrawWindow 


NtUserWindowFromp oint 


当前 多数 地 址 
Oxfffff96000108ec8 
Oxffffr96000105fa8 
Oxfffff96000117970 
Oxfffff96000125f3c 
Oxfffffr9600011f0d8 
Oxfffff96000117b74 
DxdffffF9600010f114 
Oxfffff960000f331c 
Oxfffff960000cb410 
Oxfffff96000220b84 
Oxfffff960001025d4 
Oxfffffro60000fa3c0 
Oxfffff960001221ac 
Oxfffff96000120b2c 
Oxfffff9600012458c 
Oxfffff96000114440 
Oxfffff960000c5fbc 
Oxfffff9600011a978 
Oxfffff960000b942c 
0xfffff96000121538 
Dxfffff96000120e1lc 


Ps EEEEER rr 


是 富 害 挂 物 ”原始 多数 地 址 


D i i i E i i 让 〖 有 E i I i D 1 nl 


0xfffffo96000108ec8 
0xfffffo96000105fa8 

0xfffff96000117970 
Oxffiff96000125f3c 

0xfffff9600011fod8 
0xfffff96000117b74 
Oxfffff9600010f114 

0xfffffo960000f3315C 

Oxfffff960000cb410 
0xfffff96000220b84 
0xfffffo960001025d4 
Oxfffff960000fa3c0 

Oxffiff960001221ac 
Oxffiff96000120b2c 
0xfffff9600012458<c 
Oxfffffg6000114440 
Oxffiffa60000csfbc 

Oxfffffr9600011a978 
0xfffff960000b942c 
0xfffff96000121538 
Oxfffff96000120elc 


ris EEEEER 


当前 的 数 所 在 的 模块 

C:\Windows\system32\win32k.sys 
C:\Windows\system32\win32k.sys 
CNndows\system32\win32k,sys 
C\Windows\system32\win32k.sys 
CWIndows\system32\win32k.sys 
C:\Windows\system32\win32k.sys 
CNndows\system32\win32k.sys 
CWndows\system32\win32k.sys 
C:\Windows\system32\win32k,sys 
C:\Windows\system32\win32k,.sys 
C\Windows\system32\win32k.sys 
CNndows\system32\win32k.sys 
C:\Windows\system32\win32k.sys 
Cc VNndows\system32\win32k. sys 
C\Windows\system32\win32k.sys 
CWANndows\system32\win32k.sys 
C:\Windows\system32\win32k.sys 
C:\Windows\system32\win32k.sys 
C:\Wndows\system32\win32k.sys 
C:\Windows\system32\win32k.sys 
C:\Windows\system32\win32k,sys 


le a es ss = 


图 3-9 Win7 64 位 系统 中 KeServieDescriptorTableShadow 中 的 GUI 调用 


2. IDT 

IDT( Interrupt Descriptor Table, 中 上 断 摘 述 符 表 ) 是 Windows 系统 中 处 理 中 断 / 目 陷 的 数据 
结构 。 诸 如 除雪 (0# 中 断 ) . 断 点 (3# 中 新) .早期 版 本 的 系统 调用 (0x2e# 中 断 ) 以 及 异 币 处 理 
等 都 会 引发 中 断 , 目 然 需 要 相应 的 中 断 服务 例 程 进行 处 理 。 在 32 位 系统 中 ,IDT 共有 256 个 
表 项 ( 门 描述 符 ) ,每 一 个 表 项 的 长 度 为 8 字 节 ,因此 IDT 的 总 大 小 为 2 KB。IDTR 保存 了 
IDT 的 物理 内 存 地 址 。 每 个 CPU 对 应 一 个 IDT, 而 每 一 个 CPU 中 也 有 一 个 IDTR。 

我 们 先 来 看 一 下 IDT 的 结构 。IDT 中 的 表 项 叫 作 门 描述 符 , 一 共有 三 种 ,其 结构 如 图 3 
10 所 示 。 

> 任务 门 描述 符 : 用 于 任务 切换 时 保存 现场 ,描述 符 中 包含 了 TSS( 任 务 状态 段 ) 在 
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GDTALDT 中 的 选择 子 。( 现 代 操 作 系 统 极 少 使 用 任务 门 方式 ,只 是 为 了 兼容 TSS 机 
制 才 会 在 线程 切换 时 更 改 TSS 的 个 别 字 段 ,真实 的 线程 切换 采用 其 他 方式 保存 
现场 。) 
> 中 断 门 描述 符 : 用 于 摘 述 中 断 例 程 人 口 地 址 。 

> 自 陷 门 描述 符 : 用 于 描述 自 陷 处 理 例 程 入 口 地 址 ,例如 自 陷 指令 int 0x2E 对 应 的 服务 
例 程 就 是 KAIi>”ystemservlce 。 


任务 门 描述 符 
31 1615141312 


31 16 13 


1SS Segment Selector 


中 断 门 换 述 符 
1615141312 


目 陷 门 措 述 符 
1615141312 


Offset 31:…16 


31 16 1$ 


四 | 


DPL: 任务 门 描述 符 

Offset， 段 侦 移 

P: 段 描述 符 存 在 标志 

ee 代码 段 选择 子 

D:， 门 描述 符 大 小 ，1=32 位 ，0=16 位 


国 国 :保留 区 域 


3-10 门 描述 符 结 构 示 意图 


在 早期 的 Windows 系统 中 都 是 采用 自 陷 (int OOE) 的 方式 进行 系统 调用 的 ,后 来 的 高 版 
本 系统 (Windows 2000 之 后 的 版 本 ) 及 用 快速 调用 方式 (Intel CPU 采用 sysenter 和 sysexit 指 
令 ,AMD CPU 采用 syscall 和 sysreturn 指令 ) 进行 系统 调用 和 系统 返回 ,两 种 调用 方式 的 区 别 
如 图 3 一 11 所 示 。 

由 于 日 陷 型 系 完 测 用 要 访 辣 在 内 存 中 的 IDT, 因 此 访问 速度 远 比 不 上 快速 系统 调用 方 
式 , 稍 后 的 章节 中 会 有 详细 描述 


内 存 
IDT Entry[0] | 
DT Er 2 IDT Entry[0x2E] 
0 
IDT Entry[OXEFF] | ， _ 


| 系统 服务 入 口 地 下 


SYSENTER_CS_MSR 和 寄存 堪 


SYSENTER_EIP_MSR 寄 存 器 


3 一 11 两 种 系统 调用 方式 的 对 比 


3.1.5 KPCR 和 KPRCB 


1. KPCR 

所 请 KPCR ,了 台 是 内 核 处 理 需 控制 区 (Kernel Processor Control Resgion ) 。 前 文 说 过 3 
CPU 切换 到 内 核 态 时 ,FS 寄存 需 指 回 KPCR 的 选择 子 ( 在 Windows X64 版 本 中 GS 寄存 强 指 
向 KPCR 的 选择 子 )。 从 定义 就 可 以 看 出 ,KPCR 与 每 个 处 理 器 相对 应 ,描述 的 是 处 理 器 相关 
的 重要 数据 和 状态 (例如 当前 线程 信息 .CDT 与 IDT 的 地 址 信息 等 ) 以 及 一 些 线 程 切换 的 重 
要 信息 。32 位 Windows 系统 中 KPCR 在 内 存 中 的 排 布 如 图 3 一 12 所 示 。 


高 址 Sizeof(KPCR) KPCR3— CPU3 
Sizeof(KPCR,) 
ee 
os 

低 址 0vFF000000 


3 一 12” KPCR 在 内 存 中 的 排 布 
以 下 是 KPCR 数据 结构 的 定义 : 


nt! KPCR 
+0x000 NtTib : NT TIB / /内核 态 的 异常 队列 结构 体 
+0x0lc SelfPcr :Ptr32 KPCR // 指 向 自己 ,例如 FS[OxLC] 
+0x020 Prcb :Ptr32 KPRCB / /指向 KPCR 后 面 的 KPCRB 数据 结构 
+0x024 Irgl :UChar 
+0x028 IRR :Uint4B 
+0O0x02c IrrActive :Uint4B 
+0x030 IDR :Uint4B 
+0x034 KdVersionBlock :Ptr32Volid 
+0x038 IDT :Ptr32 KIDTENTRY // 对 应 CPU 的 IDT 的 线性 基 址 (IDTR 中 的 值 ) 
+0x03c GDT :Ptr32 KGDTENTRY // 对 应 CPU 的 GDT 的 线性 基 址 (GDTR 中 的 值 ) 
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+0x040 TSS :Ptr32 KTSS //TSS 的 线性 基 址 
+U0x044 MajorVersion :Uint2B 

+0Ox046 MinorVersion : Uint2B 

+U0x048 SetMember :UintA4B 

+UXU4Cc stallscaleFactor :Uint4B 

+0xV050 DebugActive :UChar 

+0x05]1 Number :UChar /1 对 应 CPU 的 编号 
+0xV052 Spared0 :UChar 

+Ux053 SecondLevelCacheAssociativity:UChar 

+O0x054 VdmAlert :Ujnt4B 


+0x058 KernelReserved :|14|1Uint4B 
+0x090 SecondLevelCacheSize:Uint4B 


+0x094 HalReserved :[16 |Uint4B 

+0x0d4 InterruptMode :UintA4B 

+U0x0d8 sparel :UChar 

+0x0dc KernelReserved? :117]Uint4B 

+0x120 PrcbData : KPRCB // 对 应 的 内 核 处 理 器 控制 块 
2. KPRCB 


KPRCB( Kernel Processor Control Block ,内 核 处 理 硕 控制 块 ) 本 质 上 是 对 KPCR 相当 大 幅 
度 的 扩展 ,其 中 很 多 字段 用 于 线程 切换 和 调度 ,其 指针 位 于 KPCR 的 最 后 一 个 。KPRCB 与 
KPCR 一 一 对 应 ,日 然 也 与 CPU 一 一 对 应 。 由 于 其 数据 结构 很 大 ,我 们 在 这 里 只 是 选择 性 地 
列 出 几 项 ,如 下 所 示 : 


nt! KPRCB 

+0x004 CurrentThread :Ptr32 KTHREAD / /当前 线程 结构 体 KTHREAD 的 指针 

+0x008 NextThread :Ptr32 KTHREAD / /下 一 个 需要 切换 到 的 线程 结构 体 KTHREAD 的 指针 
+0x00c IdleThread :Ptr32 KTHREAD // 当 CPU 没有 其 他 线程 执行 时 要 切换 到 的 空闲 线程 结 

// 构 体 KTHREAD 的 指针 

+0x4a8 KernelTime :Uint4B // 内 核 态 执行 时 间 , 用 于 统计 信息 

+0x4ac UserTime :Uint4B / /用户 态 执行 时 间 , 用 于 统计 信息 
WaitListHead : LIST ENTRY / /线程 切换 时 , 等待 线 程 的 队列 

ReadySummary : ULONG // 就 绪 队 列 的 位 图 


DispatcherReadyListHead :[32] LIST ENTRY //32 个 优先 级 的 继续 队列 


3.1.6 KTHREAD ETHREAD W32THREAD 和 和 TEB 


前 文 讲 过 ,Windows 内 核 最 上 面 两 层 分 别 是 执行 体 层 和 内 核 核心 层 。 执 行 体 层 负责 管 
理 .策略 等 事务 ,而 更 底层 的 实现 机 制 是 由 内 核 核心 层 负责 的 。 线 程 作为 操作 系统 执行 的 基 
本 单位 ,在 执行 体 层 和 内 核 核心 层 分 别 有 数 据 结构 也 以 对 应 ,分 别 是 ETHREAD 和 
KTHREAD 结构 ,在 用 户 态 则 使 用 TEB( 线程 环境 块 ) 结构 表示 。W32THEWAD 结构 处 于 内 
核 核 心 层 ,是 为 视窗 进程 所 属 的 线程 准备 的 ,包含 了 与 图 形 界面 窗口 相关 的 数据 和 属性 。 

由 于 内 核 核 心 层 涉及 线程 调度 和 切换 ,因此 KTHREAD 结构 的 很 多 域 都 与 切换 和 调度 
有 关 。TEB 结构 包含 了 在 用 户 态 空间 中 需要 访问 的 各 种 数据 ,而 ETHREAD 结构 中 则 包含 
了 APC 机 制 .进程 挂靠 等 管理 和 和 妥 略 信息 。 

这 里 ,我 们 不 准备 长 篇 大 段 地 讲述 这 几 个 数据 结构 ,而 且 这 几 个 结构 确实 庞大 ,不 太 适 
合集 中 讲述 。 我 们 在 此 只 是 简要 地 提 一 下 ,在 后 面 的 篇 幅 中 若 有 用 到 它们 的 地 方 会 详细 曾 
述 。 对 这 些 数据 结构 有 兴趣 的 读者 可 月 行 查阅 相关 资料 。 
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3.1.7 TSS 


TSS( Task State Segment ,任务 状态 段 ) 在 GDT 中 也 有 相应 的 段 描 述 符 ,TR 指 回 当前 使 用 
的 TSS 物理 地 址 。 在 最 初 设计 时 ,Windows 操作 系统 希望 在 进行 线程 切换 时 TSS 用 于 保存 
当前 现场 (例如 系统 中 各 寄存 此 的 值 , 以 方便 进行 线程 切换 ,每 次 切换 时 只 更 换 TSS ,其 他 的 
寄存 带 人 就 不 单独 切换 了 ) 。 但 实际 上 线程 切换 时 只 需要 更 换 TSS 中 的 个 别 值 , 旦 更 换个 别 
值 的 执行 开销 远 小 于 蔡 换 整个 TSS ,并 且 由 于 各 线程 的 KTHREAD 等 数据 结构 相当 完善 , 因 
此 将 线程 切换 的 现场 保存 工作 寄 希 望 于 整个 TSS 就 显得 没有 必要 。 在 实际 切换 线程 时 ,无 
论 是 在 Windows 系统 中 还 是 在 Linux 系统 中 ,都 只 需要 改变 TSS 的 SS0 、ESP0 和 IO Map 
Base Address 字段 (分 别 是 当前 线程 的 内 核 态 堆 栈 选 择 子 .堆栈 指针 和 LIAO 权限 位 图 ) 。 

TSS 数据 结构 如 图 3 - 13 所 示 。 


VO 位 图 基 址 = 100 


_CR3(PDBR0， 页 目录 表 基 址 寄存 器 ) 


图 3-13 TSS 数据 结构 示意 图 
线程 切换 时 ,TSS 的 变化 是 :从 TR 获取 TSS ,更 新 IO 权限 位 图 .ESP0 .SSs0 ,由 于 所 有 线 
程 的 内 核 态 堆栈 选择 子 都 是 一 样 的 ,因此 具有 实际 意义 的 变化 是 前 两 项 ,如 图 3 -14 所 示 。 
除 此 之 外 ,就 是 GDT 中 的 TEB 和 LDT 要 更 新 一 下 丁 。 
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改变 GDT 
3 一 14 ”线程 切换 时 TSS 的 变化 


以 上 各 小 节 中 对 于 预备 知识 中 细节 的 讲解 并 不 是 完全 到 位 的 ,在 后 面 的 章节 中 ,我 们 还 
会 根据 实际 需要 进行 针对 性 的 细节 描述 。 


3.1.8 调用 约定 


中 数 的 调用 约定 是 指 函 数 被 调用 时 ,参数 的 传递 方式 和 栈 的 配 平 策略 (由 谁 来 进行 栈 的 配 
平和 清理 )。 调 用 约定 可 以 根据 CPU 是 X86 架构 的 还 是 X64 架构 的 分 为 两 类 ,如 表 3 一 1 
所 示 。 

表 3-1 调用 约定 描述 
调用 约定 种 类 | ”参数 入 栈 顺 序 ”| 栈 清理 者 (pop 以 配 平 栈 ) 其 他 说 明 
从 右 至 左 入 栈 “| 调用 者 (caller) 清 理 栈 区 “| cxC++ 的 默认 调用 约定 


从 右 至 左 入 栈 | 被 调用 者 (callee) 清理 栈 区 on SE 


放 和 ECX EDX 寄 | 被 调用 者 (callee) 清 理 栈 区 | 会 先 将 参数 放 入 寄 
存 器 存 器 


从 左 向 右 入 栈 。 “| 被 调用 者 (callee) 清理 栈 区 


从 右 至 左 人 栈 ， 
_thiscall this 指针 存放 于 
ECX 寄存 顺 


_fastcall 


对 参数 个 数 不 定 的 ,调用 | 仅 用 于 C++ 类 成 员 郴 
者 (caller ) 清理 堆栈 ; 否 | 数 , 如 果 人 参数 不 确定 ， 
则 ,由 被 调用 者 (callee) 清 | this 指针 在 所 有 参数 被 
理 堆 栈 压 栈 后 压 人 栈 堆 


系统 为 前 4 个 参数 预 
留 了 栈 区 空间 ,每 个 栈 
空间 的 大 小 为 8 字 节 ， 
寄存 器 的 值 被 放 入 这 4 
个 位 置 ,以 备 寄存 器 接 
收 其 他 值 而 无 法 传 参 


从 上 表 可 以 看 出 ,虽然 X64 染 构 下 畏 数 调用 的 前 4 个 参数 被 放 在 了 寄存 上 带 中 ,但 是 栈 帧 
空间 仍然 为 这 4 个 值 分 配 了 空间 (8B x4) ,这 种 特性 叫 作 “Homing Space” ,但 只 有 X64 架构 
下 的 non-leaf( 非 叶子 市 点 ) 图 数 才 会 有 这 个 特性 。 所 谓 non-leaf 图 效 就 是 图 数 执行 过 程 中 
还 要 调用 其 他 肯 数 的 国 数 ,而 leaf 羡 数 日 然 就 是 执行 过 程 中 不 再 调用 其 他 哺 数 的 函数 。 


从 右 至 左 人 栈 ,前 
4 个 参数 分 别 被 放 
_fastcall 人 入 ECX .EDX.、R8、| 调用 者 (caller) 清 理 栈 区 
R9 寄存 髓 ,更 多 
的 参数 放 入 栈 区 
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在 Homing Space 中 ,如 末 不 存放 参数 的 值 ,编译 硕 会 将 其 改 用 作 存 放 不 可 变 寄 存 表 的 
值 。 所 谓 不 可 变 寄 存 硕 ,就 是 图 数 调用 过 程 中 值 被 你 存 起 来 的 寄存 硕 。X64 平台 拥有 一 个 
扩展 的 不 可 变 寄存 硕 集合 ,包括 X86 架构 下 固有 的 不 可 变 寄存 带 加 上 R12 ~ R15 四 个 寄 
仔 伪 。 

在 X64 架构 下 的 图 数 调用 过 程 中 ,调用 
框架 也 发 生 了 细微 的 变化 。X64 堆栈 中 的 调 
用 框架 由 返回 地 址 (Return Address ) ,不 可 变 
寄存 天 的 值 (Non Volatile Registers ) 局 部 变 
量 ( Local Variables ) 基于 栈 的 参数 (Stack 
Parameters) 和 基于 寄存 天 的 参数 (Register 
Parameters) 构 成 ,其 中 基于 寄存 器 的 参数 至 ”> 全 
少 要 保留 32 个 字 节 ,如 图 3 一 15 所 示 。 

X64 架构 下 ,图 数 调用 过 程 还 做 了 以 下 修改 : 

1) 消除 尾部 调用 (Tail Call Elimination ) 

X64 编译 希 可 以 使 用 jump 指令 答 换 困 数 体内 最 后 部 分 的 call 指令 ,这 样 做 有 以 下 优势 : 

。 导 倪 被 调 函 数 创建 栈 帆 。 

。 调用 子 数 和 被 调 商 数 可 以 共 至 相同 的 栈 帆 。 

。 被 调 限 数 可 以 卫 接 返回 到 上 日 己 父 限 数 的 父 函 数 , 这 在 调用 肾 数 和 被 调 限 数 参 数 相 同 

的 情况 下 具有 很 高 的 执行 效率 。 

2) 栈 帧 指针 省 略 (Frame Pointer Omission ,FPO) 

X86 和 X64 架构 下 的 FPO 是 有 细微 差异 的 ,在 X64 染 构 下 使 用 RSP 作为 栈 师 基 址 寄存 大 和 
栈 顶 寄存 做 ,RBP 只 作为 通用 寄存 硕 使 用 ,不 但 节省 了 一 个 寄存 硕 , 也 加 快 了 栈 帧 的 访问 速度 。 

3) 基于 栈 顶 指针 的 局 部 变量 访问 ( Stack Pointer Based Local Variable Access ) 

由 于 X64 架构 下 RSP 寄存 副 作 为 栈 帧 基 址 寄存 各 ,因此 依赖 于 RSP 的 孙 数 栈 巾 在 函数 
体 执行 过 程 中 是 不 能 改变 RSP 寄存 硕 的 值 的 ,故而 也 会 限制 push 和 pop 指令 的 执行 , 即 只 
能 在 因数 的 首尾 更 改 .使 用 ,中 间 的 执行 过 程 只 能 该 而 不 能 写 ,如 图 3 - 16 所 示 。 


X64 国 数 
序言 | |push rXX 
SUb rsp,X 


mov rXX.[rsptX]| 


Register Parameters 


Stack Parameters | Parameters 通过 UNWIND CODE 


ER Varlables 操作 形成 的 栈 帧 
Non Volatile 一 一 一 一 一 
Return Address(RA2) 项 8 


下 个 RSP 


整个 过 程 中 
RSP 的 值 不 变 


mov [rsptX |.rXX 


加 3 一 16 ”X64 函数 执行 过 程 中 对 于 RSP 寄存 器 的 使 用 
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3.2 目 隐 型 系统 调用 流程 


所 谓 自 陷 型 系统 调用 ,是 指 系统 调用 是 通过 IDT 中 的 自 陷 中 断 服务 例 程 (int 0x2E 指 

令 ) 实 现 的 。 这 中 间 要 访问 主 存 中 的 IDT、GDT 等 多 个 数据 结构 ,因此 运行 速度 要 比 快速 型 

系统 调用 慢 ( 快 速 型 采用 新 增 的 专 有 寄存 器 实现 ) 。 下 面 我 们 先 介 绍 上 月 陷 型 系统 调用 的 总 体 

Cs 继而 拆 解 整个 流程 的 执行 序言 .执行 跳板 执行 尾声 等 过 程 细 市 ,是 一 个 从 切换 到 
返回 的 过 程 描述 。 


3.2.1 切换 流程 


我 们 以 Win32 API ReadFile 为 例 ,结合 流程 图 和 堆栈 示意 图 ,来 讲解 系统 调用 的 具体 流 
程 。 本 质 上 系统 调用 最 核心 的 部 分 就 是 堆栈 切换 以 及 堆栈 内 容 的 此 消 彼 长 ( 配 平 ) ,只 要 明 
白 了 堆栈 的 数据 消长 也 就 明白 了 系统 调用 的 核心 流程 。 

(1) 用 户 态 软 件 调用 kernel32. dll 中 的 Win32 API ReadFile ,ReadFile 又 调用 ntdll. dll 中 
的 ZwReadFile ,故事 就 从 这 里 开始 了 。 此 时 ,该 API 


低 址 
还 运行 在 用 户 态 空间 ,其 堆栈 状况 如 图 3 一 17 所 示 。 push EBP 
可 以 看 到 用 户 态 栈 从 高 址 到 低 址 依次 压 入 了 
ReadFile 的 5 个 参数 。 注 意 , 参 数 是 倒序 压 栈 的 , 即 EDxX 
函数 的 最 后 一 个 参数 先 压 栈 ,第 一 个 参数 最 后 压 
栈 。 之 后 会 把 ReadFile 的 返回 地 址 压 栈 。 所 谓 返 
回 地 址 ,是 指 紧 接着 ReadFile 的 整个 汇编 指令 块 后 参数 
面 的 一 条 汇编 指令 , 即 汇编 指令 ret 的 下 一 条 指令 蛙 伐 
pNumberOfBytesRead 
的 地 址 (ret 是 各 个 函数 汇编 指令 块 的 最 后 一 条 指 


令 ,代表 了 该 函数 已 经 全 部 执行 完毕 ,可 以 返回 了 。 
返回 到 哪里 ”自然 是 返回 到 call 函数 这 条 汇编 指令 “高 
的 下 一 条 ) 。 最 后 将 EBP 指针 压 人 堆栈 ,此 时 函数 图 3-17 用 户 态 堆栈 结构 示意 图 
的 调用 堆栈 栈 帧 构筑 完毕 。EBP 指 回采 个 栈 帆 的 
低 址 起 始 位 置 (X86 ) , 即 某 栈 帧 的 底部 (相对 低 址 高 低 来 说 的 底部 ,而 非 栈 的 底部 ,这 里 要 分 
清楚 ) 。 采 用 EBP 可 以 比较 方便 直观 地 访问 当前 栈 帧 中 的 变量 。 

这 里 简单 说 一 下 Nt 和 Zw 接口 的 区 别 。ntdll. dl 导出 的 接口 中 既 有 Nt 前 级 也 有 Zw 前 
级 ( 孝 是 存根 图 数 ) ,以 ReadFile 为 例 在 用 户 态 调用 ZwReadFile 和 NtReadFile 没有 区 别 , 只 本 
是 相同 函数 的 不 同名 称 而 已 。 在 内 核 态 调用 时 就 不 能 用 ntdll. dll 了 ,这 时 需要 使 用 内 核 态 
的 ntoskrnl. exe 导出 的 接口 ,例如 ZwReadFile 和 NtReadFile。Zw 前 缀 图 数 也 叫 存 根 图 数 
(stub) , 它 执 行 的 时 候 会 将 线程 的 Previous Mode( 先前 模式 ) 设 置 为 Kernel Mode, 然 后 调用 
NtReadFile ,而 NtReadFile 是 和 卫 接 执行 系统 调用 的 ,就 是 SSDT 中 的 系统 调用 ,并 不 做 先前 模 


1 


二 应 用 软件 开发 协议 栈 LI 


式 的 更 改 。 

(2) 在 调用 ntdll. dl 的 ZwReadFile 的 过 程 中 ,事情 慢 慢 发 生 了 变化 。ZwReadFile 首先 
会 将 Readfile 的 系统 调用 号 (1$2 ) 赋值 给 EAX 寄存 器 ,之 后 会 执行 指 问 用 户 态 空间 的 一 个 
地 址 块 KUSER_SHARED_SYSCALL 的 代码 ,这 个 地 址 块 在 CPU 进行 初始 化 的 时 候 也 同步 进 
行 初始 化 ,要 么 被 赋值 为 自 陷 型 中 断 函 数 入 口 ,要 么 被 赋值 为 快速 调用 型 系统 接口 (后 面 介 
绍 ) , 话 见 本 刷 末 尾 的 注释 。 我 们 以 前 者 为 例 , 目 陷 型 中 断 图 数 人 口 是 KilntSystemCall, 而 
KiIntSystemCall 又 会 触发 int 0x2E 指令 ,int 0x2E 执行 目 陷 并 切换 堆栈 。 从 这 一 步 可 以 看 出 ， 
ntdll. dll 才 是 从 用 户 态 回 内 核 态 切换 的 “转换 开关 ”。 

(3) int 0x2E 首先 从 TR 中 获取 TSS 结构 ,从 TSS 的 SS0 和 ESP0 字段 中 获取 当前 线程 
的 内 核 态 堆栈 底部 和 顶部 参数 ,并 赋值 给 SS 寄存 器 和 ESP 寄存 器 。 注 意 ,此 时 堆栈 才 真 正 


从 用 户 态 切 换 到 内 核 态 。 想 想 也 是 ,一 个 数据 段 的 选择 于 和 地 址 都 换 了 , 那 不 就 是 改 萌 换 
代 ” 了 嘛 。 


(4) 切换 了 堆栈 ,要 回 新 的 堆栈 (系统 堆栈 ) 依 次 压 人 5 个 参数 , 即 用 户 态 SS .ESP、 
EFLAGS CS 、EIP。 其 实 这 就 是 用 户 态 的 上 下 文 ,也 就 是 说 ,有 了 这 些 值 ,可 以 随时 恢复 当前 
线程 的 用 户 态 堆栈 .状态 标志 和 代码 被 打 断 执行 时 的 位 置 。 

(5) int 0x2E 还 要 进行 一 个 大 动作 , 即 通 过 IDTR 获取 IDT 的 基地 址 ,继而 获取 该 系统 
调用 中 断 号 (0x2E ) 对 应 的 中 断 描 述 符 表 项 IDTEntry[ 0x2E 1], 并 从 中 获取 选择 子 ( Selector) 和 和 
偏 移 量 ( Offset) 。Selector 用 来 从 GDT/LDT 中 选择 系统 代码 段 (例如 KGDT_R0_CODE ) 选 择 
子 并 赋值 给 CS 寄存 天 ,Offset 直接 定位 到 当前 的 执行 指令 (例如 KiSystemService ) 的 位 置 并 
赋值 给 EIP 寄存 顺 。 执 行 完 毕 ,线程 在 内 核 态 中 的 堆栈 地 址 数据 和 指令 数据 都 已 备 齐 。 

(6) CPU 开始 执行 EIP 寄存 需 中 的 指令 , 即 执行 KiSystemService ,这 是 目 陷 型 系统 调用 
的 总 人 口 。 而 该 函数 要 执行 以 下 4 个 步骤 :执行 序言 .执行 跳板 .执行 系统 调用 .执行 尾声 。 

图 3 一 18 以 堆栈 段 和 代码 段 的 构筑 过 程 详细 描述 了 系统 调用 的 前 期 流程 。 注 意 ,这 里 
只 是 前 期 流程 ,描述 了 这 么 多 ,其 实 当前 的 工作 只 是 完成 了 : 

> 用 户 态 堆栈 向 内 核 态 堆栈 的 切换 (数据 段 切换 )， 

> 问 内 核 态 堆栈 写 入 用 户 态 线程 当前 的 执行 上 下 文 (保存 现场 )。 

> 用 户 态 执行 代码 段 加 内核 态 执行 代码 段 的 切换 (代码 段 切 换 ) 。 

下 面 就 要 具体 执行 KiSystemService 了 ,也 就 是 前 述 步 又 的 最 后 一 步 。 这 一 步 要 执行 前 
志 执行 跳板 .执行 系统 调用 ,执行 尾声 ,最 后 系统 调用 返回 。 我 们 将 在 下 一 小 节 话 细 描 述 。 

注 :X86 系列 CPU 从 Pentium I 工 开始 增设 了 三 个 专 有 寄存 需 (Model Specific Register) 和 
两 条 专用 指令 ,用 来 支持 快速 调用 。 它 们 分 别 是 SYSENTER_CS_MSR 寄存 硕 ( 编 号 0x174) 、 
SYSENTER_EIP_MSR( 编 号 0x176) 寄存 器 和 SYSENTER_ESP_MSR (编号 0x175 ) 寄存 器 ,以 
及 sysenter 和 sysexit 指 令 。 而 对 于 这 三 个 寄存 器 的 读 写 也 只 能 由 专 上 的 特权 指 令 rdmsr 和 
wrmsr 来 完成 。 三 个 寄存 器 分 别 用 来 存储 内 核 态 的 堆栈 段 指针 代码 段 指 针 和 当前 执行 指令 
指针 ,具体 如 下 : 
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调用 六 3 | 调用 网 用 | KUSER _ SHARED SYSCALI 
2 2 一 | - 有 a :| a i = ss 
用 户 访 应 用 软 但 (kernel32.dl]) wReadFile(ntdll .dll) 内 存 块 械 直 


调用 网 用 


Kilntsystemtall KiFastsystemt all 
调用 


于 取 
TR 获取 国有 
执行 
获取 
DIE or | 
进入 内 核 时 自动 著 取 获取 
: 存 用 户 态 现场 ， | 本 
| 赋值 赋值 执行 
| 
| 
- 
执行 序言 SYSCALL PROLOG 
从 GDT 中 获取 代码 段 
(KGDT RO CODE) 
pT | 执行 中 板 SharedCode 
获取 执行 系统 茜 用 
堆栈 段 构筑 完毕 代码 段 构筑 完毕 执行 尾声 AfterSYSCALL 


3 一 18 自 陷 型 系统 调用 流程 图 


> SYSENTER_CS_MSR 寄存 硕 存 放 内 核 态 代码 段 选择 子 。 

> SYSENTER_CS_MSR 寄存 融 中 的 内 容 ( 内 核 态 代 但 段 选 择 子 ) 加 8( 在 GDT 中 的 描述 
从 索引 加 1) ,这 个 地 址 存放 内 核 态 堆栈 段 选择 子 。 

> SYSENTER_CS_MSR 寄存 关中 的 内 容 (内 核 态 代码 段 选 择 子 ) 加 16 ,这 个 地 址 存放 用 


户 态 代码 段 选 择 子 。 
> SYSENTER_CS_MSR 寄存 需 中 的 内 容 (内 核 态 代 人 码 段 选择 子 ) 加 24 ,这 个 地 址 存放 用 


> SYSENTER_EIP_MSR 寄存 带 存 放 内 核 态 代码 指针 。 

> SYSENTER_ESP_MSR 寄存 天 存放 内 核 态 堆栈 指针 。 

调用 号 是 一 个 32 位 的 序号 ,如 图 3 - 19 所 示 代 表 了 系统 调用 哺 数 在 SSDT 中 的 索引 。 
但 这 32 位 不 都 是 有 效 的 ,只 有 低 12 位 (第 0 ~11 位 ) 才 表示 了 对 应 调用 在 : SSDT 中 的 索引 ， 
而 第 12 位 则 代表 服务 表 号 ,0 表示 选择 SSDT,1 表示 选择 Shadow SSDT。 无 论 是 目 陷 型 系统 
调用 还 是 后 面 要 描述 的 快速 型 系统 调用 ,调用 号 都 是 使 用 EAX ela 


19 位 : 未 使 7: 服务 表 号 | 12 位 : 系统 服务 索引 号 


图 3 一 19 调用 号 格式 
快速 调用 方式 下 的 sysenter 和 sysexit 指令 并 不 依赖 内 存 , 只 依赖 专 有 寄存 右 。 而 内 核 态 
的 堆栈 段 选择 子 .代码 段 选 择 子 以 及 堆栈 指针 和 指令 指针 都 可 以 从 专 有 寄存 需 中 获取 ,不 需 
要 访问 内 存 , 从 而 提高 了 执行 速度 。 快 速 调用 方式 下 GDT 中 的 每 个 表 项 依然 为 8 字 ,内 
核 态 代码 段 描述 符 .内核 态 堆栈 段 摘 述 符 用户 态 代码 段 描述 符 用户 态 堆栈 段 描述 符 按 顺 
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序 依次 排列 。 

在 系统 进行 初始 化 的 时 候 , 系 统 会 根据 CPU 的 型 号 决定 KUSER_SHARED_SYSCALL 这 
块 内 存 到 底 是 沪 入 目 隐 型 系统 调用 入 口 (KilntSystemCall) 还 是 快速 型 系统 调用 入 口 
( KiFastSystemCall ) 。 


3.2.2 执行 序言 

所 谓 序言 ,就 是 执行 系统 调用 之 前 的 准备 工作 ,包括 在 内 核 态 堆栈 中 构建 自 陷 框架 、 寄 
存 器 内 容 切换 和 重 定向 .内核 线程 块 KTHREAD 的 内 核 态 初始 化 等 。 首 先 我 们 来 看 内 核 态 
堆栈 的 情况 。 前 面 我 们 曾经 描述 过 系统 堆栈 已 经 有 了 5 个 值 , 即 用 户 态 线程 的 运行 现场 ,我 


们 称 之 为 “保存 现场 "。 以 此 为 基础 , 接 下 来 我 们 要 构造 日 陷 框架。 所 谓 目 陷 框 架 , 束 是 保存 
了 状态 切换 时 各 个 寄存 硕 以 及 线程 状态 属性 的 堆栈 段 。 我 们 来 看 图 3 =20. 


位 置 A 
| | 


EDX 
18 个 位 置 
| currentThread.previousMode | | currentThread.previousMode | IOUsMode 
导 名 框 丰 
| | KPCRIEXCEPTION _LIST] | 日 隐 框 滴 
栈 生长 方向 
CS 


“保存 现场 ” 
完毕 后 的 
框架 


图 3-20 执行 序言 后 的 系统 堆栈 示意 图 


可 以 看 到 ,堆栈 底部 是 堆栈 段 初始 化 完毕 后 的 框架 , 即 用 户 态 线程 现场 上 下 文 。 之 后 开 
始 构造 和 目 陷 框 架 。 上 月 陷 框 架 先 压 人 一 个 ErrorCode 作为 占 位 ,一 般 是 0, 之 后 将 各 个 寄存 带 的 
值 按 顺 序 压 入 栈 内 ,其 中 KPCR[ EXCEPTION_LIST] 的 位 置 指 问 老 的 异常 队列 。 关 于 PCR 前 
几 和 已 系 有 接 述 。 这 里 ,位 置 A 处 以 上 ( 栈 生 长 方 癌 的 反方 问 ) 有 18 个 位 置 , 即 0x48 个 字 
方 ,用 于 保存 EAX EDX 等 寄存 带 的 值 。 这 里 面 需要 强调 的 是 EDX 寄存 右 , 它 用 于 保存 前 一 
次 进入 中 断 或 者 自 陷 时 的 自 陷 框架 KTRAP_FRAME 指针 ( 低 址 指针 ) , 即 每 一 次 进入 自 陷 或 
中 断 ,都 会 将 上 一 次 的 KTRAP_FRAME 指针 保存 在 这 个 位 置 , 从 而 形成 退伍 堆栈 链 。 我 们 平 
时 用 Windbg 等 工具 进行 栈 回 滴 的 时 候 就 是 基于 这 种 原理 。 
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在 执行 序言 阶段 ,一些 寄 存 需 也 要 重 定向 或 者 重新 赋值 : 

> FS 寄存 器 进行 重 定向 切换 ,指向 KGDT_RO_PCR(PCR_SELECTOR ) 。 

> ESI 寄存 需 指 问 当前 线程 的 KTHREAD。 

> KPCR[EXCEPTION_LIST] 被 赋值 为 0xFFFFFFFTF。 

> 当前 线程 的 KTHREAD 的 Previous Mode 被 赋值 为 用 户 模 式 ( 如 果 是 从 用 户 态 进入 内 

> 当前 线程 的 KTHREAD 的 Trap Frame 被 赋值 为 位 置 A 的 地 址 , 即 赋值 为 新 的 月 陷 框 

涤 的 指针 。 

> EBP 寄存 器 指向 位 置 A ,表示 这 是 新 的 自 陷 框 架 的 起 点 。 

至 此 , 目 陷 型 系统 调用 的 序言 序列 已 经 执行 完毕 。 总 绪 一 下 ,其 主要 工作 就 是 构造 月 陷 
框架 ,对 一 些 寄存 咒 进行 重 定向 切换 ,对 当前 线程 的 某 些 属性 进行 重 置 和 更 新 。 


3.2.3 执行 跳板 


跳板 ,也 叫 Shell Code。 执 行 跳板 的 主要 目的 是 将 用 户 态 堆栈 中 的 函数 参数 复制 到 内 核 
态 堆 栈 中 ,如 图 3 一 21 所 示 , 并 且 使 EDX 寄存 器 指向 SSDT 中 具体 的 服务 例 程 入 口 。 


参数 序列 


栈 生长 方 回 


用 户 空间 栈 系统 空间 栈 
3 一 21 从 用 户 态 堆栈 复制 参数 

具体 到 ReadFile , 则 EDX 寄存 需 指 加 KeServiceDescriptorTable[ 0]. base[ 152 ] 。 这 里 的 
152 是 NtReadFile 在 SSDT 中 的 图 数 表 下 标 。 那 么 KeServiceDescriptorTable 又 是 怎么 来 的 
呢 ? 原来 KTHREAD 数据 结构 的 ServiceTable 域 中 存放 着 本 线程 的 系统 调用 服务 表 指 针 , 这 
个 指针 或 者 指 回 KeServiceDescriptorTable ,或 者 指 回 KeServiceDescriptorTableShadow。 大 是 前 
者 , 则 只 文 持 基 本 的 原生 系统 调用 ;和 右 是 后 者 , 则 既 文 持 基 本 系统 调用 ,也 文 持 GUI 相关 
调用 。 

执行 完 跳板 后 ,EDX 寄存 器 中 已 经 是 即将 执行 的 函数 的 入 口 了 ,该 函数 的 参数 可 以 从 内 
核 态 堆栈 获得 ,调用 时 执行 一 个 call 指令 就 可 以 了 。 
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3.2.4 执行 尾声 


执行 尾声 是 为 了 处 理 限 数 返 回 后 的 堆栈 配 平 .寄存 需 还 原 .返回 用 户 态 空间 等 一 系列 操 
作 , 基 本 上 是 执行 序言 的 逆 过 程 。 

(1) 当前 EBP 寄存 器 中 的 值 为 图 3 -20 中 的 位 置 A 的 地 址 , 即 本 次 调用 形成 的 自 陷 框 
架 基 址 。 因 为 既然 执行 到 尾声 , 则 系统 调用 肯定 已 经 执行 完了 ,上 自 陷 框架 之 上 ( 栈 生 长 方向 ) 
的 调用 框架 就 失去 了 作用 ,所 以 直接 将 EBP 寄存 右 的 值 赋 给 ESP ,表示 回 到 序言 时 的 堆栈 
状态 。 

(2) 自 陷 框架 中 EDX 的 位 置 , 即 ESP 指针 + KTRAP_FRAME_EDX 这 个 位 置 保存 着 上 
次 自 隐 的 框架 指针 ,将 其 还 原 回 当前 线程 的 KTHREAD 的 自 陷 框 架 地 址 上 。 

(3) 执行 KiServiceExit, 即 检查 APC 队列 并 执行 ,然后 执行 TRAP_EPILOG, 这 就 是 
TRAP_PROLOG/SYSCALL_PROLOG 的 道 过程 , 以 消除 内 核 态 堆栈 中 的 自 陷 框架 。APC 队列 
的 处 理 我 们 在 后 面 章节 中 会 详细 介绍 ,这 里 不 展开 。 

(4) 消除 自 隐 框架 后 ,在 尾声 执行 过 程 中 将 内 核 态 堆栈 中 的 剩余 变量 弹出 。 硅 调用 来 
自 内 核 态 空间 , 则 将 EIP 的 值 弹 出 到 EDX 寄存 器 中 ,并 jmp 到 EDX 寄存 器 ,由 于 都 是 在 内 核 
态 空间 ,因此 推 栈 段 的 地 址 指针 不 需要 切换 。 寿 调用 来 日 用 户 态 空间 , 则 在 弹出 这 5 个 变量 
后 执行 iret 指令 ,将 EIP.CS、 SS 、ESP FEFLAGS 这 5 个 寄存 天 的 信 出 栈 ,并 弹出 到 对 应 的 寄存 
器 中 ,这 一 步 是 恢复 用 户 态 现场 。 由 于 SS 和 ESP 寄存 器 的 变化 ,当前 执行 环境 切换 回 用 户 
态 堆 栈 并 返回 用 户 态 空间 代码 段 , 接 下 来 执行 EIP 就 可 以 了 。 


栈 生 长 方 回 


系统 空间 栈 
图 3-22 执行 尾声 时 内 核 态 堆栈 示意 图 


至 此 ,系统 调用 尾声 执行 完毕 ,内 核 态 堆栈 配 平 。 
注 : 上 文中 提 到 了 APC 机 制 , 在 这 里 我 们 简要 介绍 下 APC 的 执行 时 机 ,后 面 APC 相关 
章节 会 有 话 细 介 绍 。 
> 内 核 APC 的 执行 时 机 
e 每 次 返回 用 户 态 空间 前 (KiServiceExit ) ; 
e 执行 KeLowerlrql( 从 APC_LEVEL 以 上 降级 到 APC_LEVEL 或 以 下 ) 时 |; 
。 线程 重新 调度 开始 运行 前 ,会 扫 摘 执行 内 核 APC 队列 或 发 出 APC 中 上 断 请 求 。 
> 用 户 APC 的 执行 时 机 :从 内 核 态 返回 用 户 态 之 前 (例如 系统 调用 .中断 . 异 稼 等 ) 。 
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3.3 快速 型 系统 调用 流程 

快速 型 系统 调用 是 指 利用 专 有 寄存 器 保存 系统 调用 的 相关 数据 结构 , 避 开 对 内 存 中 
IDT 的 访问 而 直接 获取 调用 入口 的 方式 。 我 们 以 自 陷 型 系统 调用 为 参照 讲解 这 个 过 程 。 
3.3.1 切换 流程 


我 们 仍 以 ReadFile 为 例 来 介绍 快速 型 系统 调用 的 流程 。 如 图 3 -23 所 示 是 快速 型 系统 
调用 的 主要 流程 ,可 以 看 出 它 比 目 隐 型 系统 调用 要 简单 很 多 ,特别 是 从 sysenter 指令 开始 ,到 
用 户 态 癌 内 核 态 切换 完成 ,快速 型 系统 调用 流程 大 大 简化 ,由 于 选择 子 部 存放 在 专 有 寄存 带 
中 ,因此 不 需要 访问 TSS 或 IDT 便 可 填充 CS 等 寄存 器 ,访问 速度 大 大 加 快 。 


ee i 调用 Win32 API ReadFile ] 周 用 调用 KUSER SHARED 
A 中 了 本 
用 户 态 应 用 软 但 (kernel32.dll) ewReadFile(ntdll .dll) SYSCAI 工 内 存 块 低下 


遇 用 | 调用 


DTR 
从 GDT 中 获取 代码 和 (KGDT_R0O_CODE) 店 一 一 一 1 此 值 KilIntSystemCall 
了 -A 计 + 加 

调 骨 调用 
: 

新 ESP 寄 存 朝 执行 

和 ESP 寄存 器 
KiFastCallEntry 是 新 站 由 和 翰 1 
-| 东 


执行 
执行 太 言 
FASTCALL PROLOG 


所 行 跳板 SharedCode 


执行 系统 里 用 


”执行 返回 : 
KiFastSystemCallRet 


3 一 23 快速 型 系统 调用 流程 图 


在 快速 型 系统 调用 流程 中 ,切换 这 一 步 相 当 于 月 陷 型 系统 调用 流程 中 的 切换 .执行 序言 
和 执行 跳板 这 三 步 , 其 具体 步 又 如 下 ( 仍 以 ReadFile 为 例 ) : 

(1) 用 户 态 线程 调用 kernel32 中 的 Win32 API ReadFile ,ReadFile 又 调用 ntdll. dll 中 的 
ZwReadFile。 通 过 用 户 态 的 KUSER_SHARED_SYSCALL 内 存 块 (保存 了 KiFastSystemCall 人 
口 ) 执 行 KiFastSystemCall ,继而 调用 sysenter 指令 (Intel CPU 环境 下 ),。 但 线程 此 时 尚 在 用 户 
态 ,使 用 的 也 是 用 户 态 堆栈 。 这 里 要 将 ESP 寄存 需 的 值 赋 子 EDX 寄存 带 , 如 此 EDX 寄存 大 
的 值 加 8( 沿 用 户 态 堆栈 回溯 2 个 位 置 ) 的 位 置 就 是 用 户 态 堆栈 参数 块 的 位 置 ,便于 将 参数 
块 捞 由 到 内 核 态 堆栈 。 

(2) 执行 sysenter 指令 ,具体 如 下 : 

> sysenter 指令 从 SYSENTER_CS_MSR 寄存 带 中 获取 内 核 态 代码 段 选择 子 (KGDT_RO0_ 

CODE ) 并 赋值 给 CS 寄存 兹 ; 


i 
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> 从 SYSENTER_EIP_MSR 寄存 天 中 获取 内 核 态 代 但 段 图 数 人 口 指针 (KiFastCallEntry ) 
并 赋值 给 EIP 寄存 关 ; 

> SYSENTER_CS_MSR 中 的 内 核 态 代 码 段 选择 子 加 8 就 是 内 核 态 堆栈 段 选择 子 ( KGDT 
_R0_DATA) ,将 其 赋值 给 SS 寄存 器 ,这 也 客观 上 要 求 它们 在 GDT 中 按 顺 序 相 邻 
排 布 ，; 

> 从 SYSENTER_ESP_MSR 寄存 带 中 获取 内 核 态 堆栈 指针 并 赋值 给 ESP 寄存 需 ( 是 个 

临时 值 ,在 序言 中 会 进行 实际 赋值 ) 。 

这 些 寄 存 需 被 赋值 后 ,用户 态 向 内 核 态 的 切换 完成 。 

(3) 执行 KiFastCallFntry。 首 先 执行 快速 调用 的 序言 FASTCALL_PROLOG ,在 内 核 态 推 
栈 中 构造 目 陷 框架 。 与 int 指令 不 同 的 是 这 里 的 用 户 态 上 下 文 的 保存 是 序言 代码 中 实现 的 ， 
而 int 指令 则 移 剑 存 上 下 文 册 执行 前 委 。 各 寄存 天 和 当前 线程 的 KTHREAD 的 更 新 如 下 : 

> FS 寄存 硕 进 行 重 定 癌 切换 , 指 加 KGDT_RO_PCR。 

ESP 寄存 天 更 新 为 TSS 中 的 ESPO0 。 

> ESI 寄存 硕 指 癌 当 前 线程 的 KTHREAD 。 

> KPCR[TEXCEPTION_LIST] 被 赋值 为 0xFFFFFTFTFF。 

> 当前 线程 的 KTHREAD 的 Previous Mode 被 赋值 为 用 户 模式 (如 果 是 从 用 户 态 进入 内 

> 当前 线程 的 KTHREAD 的 Trap Frame 被 赋值 为 位 置 A 的 地 址 ( 如 图 3 一 24 所 示 ), 即 

填充 新 的 目 陷 框架 的 位 置 。 

> EBP 寄存 髓 指向 位 置 A ,表示 这 是 自 陷 框架 的 起 点 。 

可 以 看 出 ,快速 型 与 月 陷 型 系统 调用 的 序言 在 保存 现场 之 后 的 步骤 完全 一 致 。 目 陷 框 
染 的 构建 参见 图 3 -24 中 的 内 核 态 堆栈 ,其 中 最 左边 的 堆栈 是 自 隐 型 系统 调用 的 系统 堆栈 ， 
中 间 的 是 快速 型 系统 调用 的 系统 堆栈 ,可 以 看 看 两 者 的 区 别 : 


并 置 A 
currentThread.previousNMode ebp ie in 
KPCR[EXCEPTION LIST] 自 陷 框架 
栈 生 长 
方 问 


KiFastSystemCall 


SharedlserData 
ErrorCode:0 


“保存 现场 ” 
完毕 后 的 框架 ， 
序言 完成 


用 户 态 空间 地 址 ， 系统 态 空间 地 址 ， 


自 陷 调 用 快速 调用 Ox PY Ox i 
系统 态 堆 栈 系统 态 堆 楼 只 二 


3 -24 ”两 种 系统 调用 的 状态 切换 堆栈 示意 图 
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> 原来 SS 寄存 器 的 位 置 现 被 赋值 为 KGDT_R3_DATA ,表示 这 是 通用 用 户 态 堆栈 段 选 
择 了 于 。 
> 原来 ESP 寄存 器 的 位 置 现 被 赋值 为 EDX 寄存 器 的 值 ,因为 在 步骤 (1) 的 时 候 已 经 将 
用 户 态 的 ESP 寄存 硕 的 信 赋 给 EDX 寄存 大 了 。 
> 原来 CS 寄存 天 的 位 置 现在 被 蔡 换 为 KCDT_R3_CODE ,表示 这 是 通用 用 户 态 代码 段 
选择 于。 
> 原来 EIP 寄存 占 的 位 置 现在 被 替换 为 KUSER_SHARED_SYSCALL_RET, 这 个 值 指向 
用 户 态 空间 中 一 块 共享 数据 区 域 的 某 个 位 置 ,实际 上 就 是 KiFastSystemCallRet ,表示 
系统 调用 的 返回 总 入 口 。 
> 原来 FS 寄存 各 的 位 置 现在 指 癌 KGDT_R3_TEB, 即 指 癌 GDT 中 当前 线程 的 TEB 选 
择 了 于 。 
> 先前 模式 的 位 置 改 为 1 , 即 表示 先前 模式 为 用 户 态 模式 。 
综 上 所 述 , 上 述 两 种 调用 方式 中 堆栈 里 的 内 容 略 有 和 更改, 但 是 其 含义 和 栈 帧 大 小 完全 相 
同 。 这 里 我 们 要 说 明 一 下 用 户 态 的 SharedUserData , 它 在 用 户 态 空间 和 内 核 态 空 间 被 分 别 映 
射 , 也 惑 是 "一块 内 存 两 次 映射 ”, 在 用 户 态 只 庶 , 在 内 核 态 可 与 ,因此 初始 化 的 时 候 操 作 系 统 会 
在 内 核 态 进 行 写 人 。 这 块 内 存 的 SystemCallStub 入 口 就 是 KiFastSystemCall 或 KiIntSystemCall 。 
执行 跳板 (Shared Code) ,这 里 的 Shared Code 与 上 月 陷 型 系统 调用 中 的 基本 一 致 ,不 再 
王 述 。 


3.3.2 执行 返回 


返回 图 数 的 主要 任务 有 : 
> 消除 目 陷 框架 。 
> 将 FS 寄存 天 重新 指向 KCDT_R3_TEB。 
> 将 KUSER_SHARED_ SYSCALL_RET 弹出 到 EDX 寄存 器 中 。 
> 将 堆栈 中 保存 的 EDX 的 值 (这 是 之 前 保存 的 用 户 态 堆栈 指针 ) 弹出 到 ECX 寄存 
> 执行 sysexit 指令 ,具体 如 下 : 
。 将 [SYSENTER_CS_MSR] + 16 赋值 给 CS 寄存 器 ,[ ] 表 示 取 值 ,也 就 是 将 KGDT_ 
R0O_CODE +16(KGDT_R3_CODEF ) 赋值 给 CS 寄存 器 。 
e 将 [SYSENTER_CS_MSR ] +24 赋值 给 SS 寄存 器 ,也 就 是 将 KGDT_RO_CODE +24 
(KGDT_R3_DATA) 赋值 给 SS 寄存 器 。 
。 将 EDX 寄存 右 的 值 ( KUSER_SHARED_SYSCALL_RET) 赋值 给 EIP 寄存 器 。 
。 将 ECX 寄存 器 的 值 (用 户 态 堆栈 指针 ) 赋 值 给 ESP 寄存 器 。 
执行 完成 后 ,内 核 态 堆栈 重新 切换 为 用 户 态 堆栈 ,最 后 执行 EIP 就 可 以 了 。 
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本 章 小 结 


系统 调用 是 包括 Windows 在 内 的 任何 操作 系统 最 重要 的 部 分 ,进程 要 实现 的 大 多 数 功 

能 都 是 通过 系统 调用 实现 的 。 同 时 ,系统 调用 一 般 也 是 用 户 态 和 内 核 态 的 分 水 岭 。 本 革 站 

和 完 对 Windows 系统 调用 相关 的 各 种 寄存 带 和 数据 结构 进行 介绍 ,继而 梳理 了 两 种 系统 调用 
类 型 : 目 隐 型 系统 调用 和 快速 型 系统 调用 。 

I 系统 调用 中 以 堆栈 变化 和 平衡 为 主线 讲述 了 状态 切换 的 步骤 、 前 舌 的 执行 、 跳 


在 月 陷 型 
板 的 执行 和 尾声 的 执行 。 在 快速 型 系统 调用 中 依然 以 堆栈 动态 变化 和 平衡 为 主线 描述 了 状 
态 切 换 和 执行 返回 的 步骤。 


第 (49 革 ”进程 与 线程 的 创建 


CPU 执行 的 基本 单位 是 线程 ,而 进程 是 线程 的 创建 者 和 容 右 。 作 为 创建 者 ,进程 为 线程 
提供 了 必要 的 数据 结构 (包括 KTHREAD ETHREAD ,TEB 用 户 态 堆栈 内核 态 堆 栈 等 ) 和 执 
行 的 “初始 动能 ”一 一 启动 线程 执行 ;作为 容器 ,进程 为 线程 提供 了 一 切 必 备 的 执行 环境 , 包 
括 进程 虚拟 内 存 空间 .虚拟 内 存 空间 布局 等 ,这 些 也 是 创建 进程 过 程 中 的 必 备 动作 。 
进程 创建 线程 的 过 程 具 有 一 定 的 技巧 性 : 
> 首先 进程 会 在 线程 内 核 态 堆栈 中 构造 一 些 伪 数据 结构 ,造成 线程 从 这 里 被 剥夺 执行 
权 的 假象 ,方便 线程 开始 执行 的 时 候 有 初始 参数 。 

> 然后 借用 IRQL( 中 断 请 求 级 别 ) 降低 的 档 口 执行 异步 过 程 调用 (APC ) 回 到 用 户 态 加 
载 其 余 依 赖 的 模块 。 

> 通过 APC 返回 用 户 态 空间 时 根据 线程 的 参数 启动 线程 的 初始 执行 人 口 函数 。 

本 章 将 按照 图 4 一 1 所 示 的 提纲 进行 介绍 ，。 


分 别 对 应 了 内 核 核心 层 、 执 行 体 层 、 用 户 层 、GUI 几 种 层次 下 的 数 
据 结构 


数据 结构 9/ 线程 数据 结构 : KTHREAD、ETHREAD、TEB、W32THREAD 
进程 数据 结构 : KPROCESS、EPROCESS、PEB、W32PRDCESS 
线程 而 不 是 进程 才 是 运行 的 主体 
进程 与 线程 的 创建 目 | 
| 进程 是 线程 的 容器 ， 必 须 首先 创建 进程 才能 创建 线程 


线程 创建 过 程 步骤 1 : 映射 EXE 
| 产 步 骤 2 : ntCreateProcess 创 建 进程 结构 和 地 址 空间 


| i 
| PF 步骤 3 ; 创建 线程 堆栈 ， 并 通过 ntCreateThread 创 建 主线 程 
”进程 创建 | 一 A sssmba hhakniins 


|_P 步 驶 5 了 启动 主线 程 

| 步 庆 6 : APC 加 工 进 程 依赖 的 DLL at 
| 
r 
\ 初始 化 APC : 加 载 DLL 


l - ~，| “系统 态 堆栈 
keInitThread 实 质 执 行 小 程 初始 化 iE 
”| 用 户 态 空间 的 上 下 文 


图 4-1 本 章 提纲 


4.1 数据 结构 


我 们 有 必要 先 来 看 一 看 进程 和 线程 的 相关 数据 结构 。 在 前 文中 曾 简单 描述 过 线程 相关 
的 数据 结构 (KTHREAD ETHREAD W32THREAD TEB 等 ) ,这 里 我 们 会 较为 详细 地 摘 述 它 
们 之 间 的 关系 。 前 文 铺垫 过 ,线程 和 进程 在 操作 系统 的 不 同 层次 都 有 对 应 的 数据 结构 来 体 
现 ,因为 这 些 不 同 的 层次 具有 不 同 的 核心 任务 ,对 于 进程 /线程 数据 结构 的 要 求 也 不 一 而 足 ， 
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将 这 些 要 求 隔离 在 不 同 的 数据 结构 中 看 起 来 是 明 乔 之 举 。 当 然 , 每 个 数据 结构 都 不 会 只 呈 
现 目 己 在 操作 系统 对 应 层次 中 需要 承担 的 那些 任务 ,也 会 附 市 一 些 其 他 的 数据 ， 这 矢 因 为 操 
作 系 统 是 个 很 复杂 的 系统 机 制 ,每 个 层次 会 用 到 的 数据 并 不 固定 ,数据 结构 之 间 会 有 交叉 头 
联 。 限 于 遍 幅 ,我 们 不 会 枚 举 这 些 数 据 绪 构 的 每 个 字段 ,完整 的 数据 结构 谈 痢 可 以 月 行 查 阅 
相关 资料 。 


4.1.1 线程 相关 数据 结构 


“KTHREAD” 中 的 “K” 即 Kemel (核心 ) ,KTHREAD 就 是 线程 在 内 核 核心 层 的 数据 结 
构 , 如 图 4 一 2 所 示 , 也 叫 作 线程 控制 块 (TCB) ,TCB 目 然 位 于 内 核 态 ,主要 负责 线程 调度 相 
关 事 宜 。 


Dispatch Header// 等 待 时 使 用 的 结构 体 ， 访 结构 体 是 个 分 发 占 对 象 ， 可 以 挂 入 等 待 队 列 


Kernel Stackw 指 加 系统 态 空间 堆栈 


ThreadListEntryWLIST_ ENTRY 结 构 体 ， 供 挂 入 所 属 进程 的 KTHREAD 链 表 


4-2 KTHREAD 数据 结构 


“ETHREAD" 中 的 “E” 即 Executive( 执行 体 ) ,执行 体 是 内 核 的 上 层 绪 构 ,ETHREAD 主 
要 供 执 行 体 层 使 用 ,例如 内 存 管理 .1/O 分 发 等 ,自然 也 位 于 内 核 态 ,数据 结构 如 图 4 一 3 
所 示 。 

ETHREAD 中 包括 了 LPC( 本 地 过 程 调 用 ) 的 相关 属性 ,LPC 是 内 核 支 持 的 进程 间 通 信 机 
制 , 比 RPC( 远 程 过 程 调 用 ) 或 其 他 TCPZLP 方式 更 为 高 效 ,但 只 能 用 于 本 地 主机 系 

个 进程 的 通信 ,例如 视窗 报 文 等 都 是 通过 LPC 机 制 实现 的 。 关 于 LPC 后 文 会 进行 详细 
介绍 。 
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TCBW 比 程控 制 块 数 据 结构 ， 包 人 了 KTHREAD 关 据 结 构 
进程 句柄 和 比 程 句 帆 组 侣 起 来 可 以 唯一 
。 ' 日 一 -个 羡 早 ， HU] P A 
LpcReplyChaimLIST_ENTRY 结 构 ， 供 本 地 过 程 油 用 挂 入 相应 线程 队列 前 进 和 的 对 象 表 的 下 慰 (Handie 而 不 
是 全 局 结构 PspCidTable 的 下 标 ， 也 就 不 


CID/CLIENT ID 数据 结构 ， 包 舍 UniqueProcess 和 UniqueThread ， 即 所 在 进程 和 本 线程 句 栖 是 打开 进程 所 得 到 的 Handle 


IRPListWO 请 求 包 的 队列 ，IRP 即 VO Request， 是 IO 系统 数据 铺 构 的 传递 * 使 者 ” 当前 线程 正在 处 理 的 VO 请 求 


ThreadsProcessi 寺 | 问 当 前 线程 了 所属 的 进程 的 EPROCESS 结 构 
StartAddressi/ 线 程 入 口 地 址 ， 一 般 为 ntdll.dl 中 的 BaseProcessStart 或 BaseThreadStait 入 口 
Win32StartAddress1 线 程 入 口 地 址 ， 一 般 为 用 户 指定 的 入口 ， 即 CreateThread 指 定 的 六 口 


sl ts 


LpcReplyMessageldii 当 前 线程 正在 等 竺 对 一 个 LPC 消 息 的 应 管 


图 4-3 ”ETHREAD 数据 结构 示 


TEB , 即 线程 环境 块 ,是 在 用 户 态 空间 使 用 的 线程 信息 块 。TEB 数据 结构 如 下 所 示 : 


typedef struct TEB 


{ 
NT TIB NtTib; //NT_TIB 数据 结构 ,里 面包 含 了 结构 化 异常 处 理 例 程 链表 
PVOID EnvironmentpPpointer; 
CLIENT ID ClientId; // 和 包含 UniqueProcess 和 UniqueThread, 即 所 在 进程 和 本 线 
// 程 的 句柄 


PVOID ActiveRpcHandle; 

PVOID ThreadLocalStoragePointer; 

PPEB ProcessEnvironmentBlock;  /// 指 向 所 属 进 程 的 PEB 数据 结构 

ULONG LastErrorValue; 

ULONG CountOfOwnedCriticalSections;} 

PVOID CsrClientThread; 

PVOID Win32ThreadInfo; / /指向 THREADINFO 结构 体 , 里面 维护 了 GUI 窗口 线程 的 各 种 
// 信 息 


} TEB, * PTEB; 


W32THREAD 是 GUI( 图形 用 户 界 面 ) 线 程 所 需 的 数据 结构 ,承载 7 窗口 界面 显示 的 相 
关 数 据 , 供 win32k. sys 使 用 ,自然 也 处 于 内 核 态 。 该 数据 结构 在 线程 第 一 次 调用 Windows 
USER 聘 数 或 GUI pei ,其 结 Sa ,每 个 GUI Ey W32THREAD 结构 均 你 存在 
win32k. sys 中 。 在 介 结构 。W32THREAD 数据 
结构 如 下 所 示 : 


typedef struct W32THREAD 
{ 


PETHREAD PEThread: 
ULONG RefCount,; 
PTL pt1lW32; 
PVYOID pgdiDcattr; 
PEVOID pgdiBrushAttr:; 
PVOID PUMPDPOb] s ; 
PVOID PUMPDHeaP:; 
DWORD dwEngAcquireCount,; 
PVOID pSemTable; 
PVOID PUMPDPOb] : 

} W32THREAD, * PW32THREAD; 
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4.1.2 进程 相关 数据 结构 


接 下 来 介绍 进程 相关 的 数据 结构 。 与 线程 数据 结构 对 应 ,进程 在 内 核 态 的 核心 层 也 有 
一 个 数据 结构 对 应 , 称 为 KPROCESS ,以 下 是 KPROCESS 数据 结构 : 


typedef struct KPROCESS 


{ 
DISPATCHER HEADER Header; / /与 KTHREAD 类 似 ,这 也 是 个 分 发 器 对 象 , 可 挂 入 等 待 队 列 
LIST ENTRY ProfileListHead; / /进程 参与 性 能 分 析 时 , 作为 节点 挂 入 全 局 性 能 分 析 进 程 列表 
ULONG DirectoryTableBase;? // 指 同 进 程 页 目录 地 址 
ULONG Unusedau0 ; 
KGDTENTRY LdtDescriptor; / /指向 本 进程 的 LDT 
KIDTENTRY Int21Descriptor; / /DOS 环境 下 使 用 
WORD IopmOffset; / /本 进程 的 工 /0 控制 位 图 
UCHAR Iopl; //I/O 优先 级 
UCHAR Unused; 
ULONG ActiveProcessors; / /当前 进程 正在 哪些 处 理 器 上 运行 
ULONG KernelTime; / /进程 在 内 核 态 运行 的 总 时 间 
ULONG UserTime; / /进程 在 用 户 态 运行 的 总 时 间 
LIST ENTRY ReadyListHead; / hi ,; 表示 进程 当前 已 经 就 绪 但 尚未 加 入 全 局 就 绪 链 表 的 
// 线 ; 
SINGLE LIST ENTRY SwapListEntry; // 当 被 换 入 内 存 时 ,通过 此 结构 挂 入 全 局 相关 链表 中 
PVOID VdmTrapcHandler; 
LIST ENTRY ThreadListHead; / /当前 进程 所 属 全 部 线程 
ULONG ProcessLock; 
ULONG Affinity; / /表示 本 进程 的 CPU 亲 和 性 
ULONG StackCount; / /记录 了 当前 进程 中 有 和 多少 个 线程 的 栈 位 于 内 存 中 


LIST ENTRY ProcessListEntry; 
UINT64 CycleTime; 
} KPROCESS, * PEPROCESS} 


同样 ,在 执行 体 层 也 对 应 有 一 个 类 似 于 ETHREAD 的 进程 数据 结构 EPROCESS ,我 们 
来 看 一 下 其 具体 内 容 。 由 于 EPROCESS 结构 很 大 ,在 此 只 列 出 其 一 些 比较 有 代表 性 的 属性 ， 
如 下 所 示 : 


typedef struct EPROCESS 
{ 


KPROCESS Pcb; / /EPROCESS 的 第 一 项 就 是 KPROCESS 结构 体 , 即 两 者 地 址 相同 
EX PUSH LOCK ProcessLock; 

LARGE INTEGER CreateTime; / /进程 的 创建 时 间 

LARGE INTEGER ExitTime; / /进程 的 退出 时 间 

EX RUNDOWN REF RundownProtect; 

PVOID UniqueProcessId; / /进程 ID, 即 进程 管理 器 中 的 PID 


LIST ENTRY ActiveProcessLinks; //Windows 中 ,所 有 活动 进程 通过 该 域 连 成 一 个 链表 
ULONG QuotaUsage[3]: 
ULONG QuotaPeak[31]; 
ULONG CommitCharge; 
ULONG PeakVirtualSize; 
ULONG VirtualSsSize; 
LIST ENTRY SessionProcessLinks; 
PVOID DebugPort; /7/ 指 回调 试 端 口 的 句柄 
union 
{ 
PVOID ExceptionPortData; /7/ 指 向 异常 端口 的 句柄 
ULONG ExceptionPortValue; 
ULONG ExceptionPortstate:3} 


}? 

PHANDLE TABLE ObjectTable; // 指 向 当前 进程 的 句柄 表 

EX FAST REF Token; / /该 进程 的 访问 令 牌 ,用 于 该 进程 的 安全 访问 检查 

ULONG WorkingSetPage; / /指向 包含 进程 工作 集 (正在 使 用 的 物理 页 面 的 集合 ) 的 页 面 
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EX PUSH LOCK AddressCreationLock; 
PETHREAD RotatelnProgress; 
PETHREAD ForklinProgress; 

ULONG HardwareTrigger; 

PMM AVL TABLE PhysicalVadRoot; 
PVOID CloneRoot,; 

ULONG NumberofPrivatePages; 
ULONG NumberofLockedPages; 


PVOID Win32Process; / /如 果 不 为 空 , 则 说 明 这 是 一 个 GUI 进程 
PEJOB Job; z 

PVOID SectionObject; // 指 向 内 存 区 对 象 

UCHAR ImageFileName[16|]; / /进程 映像 名 称 


LIST ENTRY JobLinks; 

PVOID LockedPagesList; 

LIST ENTRY ThreadListHead; / /该 进程 中 的 所 有 线程 , 即 ETHREAD 结构 
PVOID SecurityPort; 

PVOID PaeTop: 

ULONG ActiveThreads; // 记 录 了 当前 进程 的 活动 线程 

ULONG ImagePathHash; 

ULONG DefaultHardErrorProcessing; 

LONG LastThreadExitsSstatus; 


PPEB Peb; // 指 向 进程 环境 块 
ULONG Flags2; /1 9 了 进程 的 标志 位 , 这些 标志 位 反映 了 进程 的 当前 状态 
/i 时 


} EPROCESS, * PEPROCESS?} 


与 TEB 一 样 ,进程 在 用 户 态 也 对 应 了 一 个 PEB 结构 。PEB 是 个 比较 大 的 数据 结构 ,我 
们 只 选取 其 中 一 部 分 进行 介绍 ,如 下 所 示 : 


typedef struct PEB 
{ 
UCHAR InheritedAddressSspace; 
UCHAR ReadImageFileExecOptions; 
UCHAR BeingDebugged; / /判断 进程 是 否 被 调试 
UCHAR BitField; 
ULONG ImageUsesLargePages:l]; 
ULONG IsProtectedProcess:l1; 
ULONG IsLegacyProcess:l1，} 
ULONG IslmageDynamicallyRelocated:l1; 
ULONG SpareBits:4; 
PVOID Mutant; 


PVOID ImageBaseAddress; / /进程 映像 基 址 , EXE 默认 为 0x00400000, DLL 默认 为 
hsp 
PPEB LDR DATA Ldr; 该 结构 包含 了 三 个 队列 ,用 来 记录 该 进程 加 载 的 模块 


PRTL USER PROCESS PARAMETERS WW banale / /进程 参数 块 
PVOID SubSystemData;} 

PVOID ProcessHeap:; / /指向 的 是 进程 堆 (默认 的 那个 ) 的 首 地 址 
PRTL CRITICAL SECTION FastPebLock; 

PVOID AtlThunkSListPtr; 

PVOID IlFEOQReys 

ULONG CrossProcessFlags; 

ULONG ProcessInJob:l]} 

ULONG ProcessInitializing:]; 

ULONG ReservedBits0 :30 ， 

union 


| 


PVOID KernelCallbackTable;  ”// 指 向 从 内 核 态 回调 到 用 户 态 的 函数 指针 表 
PVOID UserSsharedIinfopPtr:; 


ULONG NumberOfHeaps; / /进程 堆 的 数量 
ULONG MaximumNumberOfHeaps; 
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VOID :# * ProcessHeaps; // 记 录 了 每 一 个 堆 地 址 的 数组 


} PEB, * PPEB; 


一 个 进程 中 的 线程 一 旦 调用 了 GUI 接口 ,这 个 线程 就 变 成 了 GUI 线程 ,win32k. sys 也 会 
为 这 个 线程 分 配 W32THREAD 数据 结构 并 存储 于 win32k. sys。 同 样 ,如 果 进 程 中 有 奋 干 个 
线程 变 成 了 GUI 线程 , 则 这 个 进程 也 会 相应 成 为 GUI 进程 ,win32k. sys 会 为 该 进程 分 配 一 个 
W32PROCESS 数据 结构 ,也 存储 于 win32k. sys 中 。W32PROCESS 数据 结构 的 各 字段 如 下 


所 示 : 

typedef struct W32PROCESS 

{ 
PEPROCESS peProcess; 
DWORD RefcCount; 
ULONG W32PF flags; 
PKEVENT InputIidleEvent; 
DWORD StartCursorHideTime;? 
struct W32PROCESS#* NextSstart; 
PVOID PpDCAttrList; 
PVOID pBrushAttrList; 
DWORD W322Pid; 
LONG GDIHandleCount; 
LONG UserHandleCount; 
PEX PUSH LOCK GDIPushLock; /+ Locking Process during access to structure.*/ 
RTL AVL TABLE GDIEngUserMemAllocTable; /* Process AVL Table.*/ 
LIST ENTRY GDIDcAttrFreeList; 
LIST ENTRY GDIBrushAttrFreeList; 


} W32PROCESS, * PW32 PROCESS; 


4.2 线程 创建 过 程 


人 研 究 线程 的 创建 过 程 ,必须 首先 清楚 进程 的 创建 过 程 。 因 为 进程 是 线程 的 容 希 ,为 线程 
运行 提供 各 种 环境 和 资源 ,无 论 是 本 地 线程 还 是 远程 线程 ,部 无 法 离开 进程 而 独立 存在 。 

进程 创建 过 程 分 为 以 下 几 个 步 又 . 

(打开 进程 的 目标 映像 文件 ,建立 内 存 映射 区 。 对 于 Windows 进程 ,这 个 映像 文件 就 
是 我 们 第 说 的 可 执行 (EXE) 文 件 , 作 为 PE 文件 (可 移植 执行 文件 ) 的 一 种 ,要 将 其 映射 到 内 
仔 中 。 

Go) 执行 系统 调用 国 数 NtCreateProcess 来 创建 进程 ,通过 该 函数 初始 化 有 关 数 据 结 构 和 
内 存 地 址 空间 ,为 线程 的 创建 和 运行 提供 环境 。 

(3 初始 化 有 关 数 据 结构 和 堆栈 ,并 执行 系统 调用 接口 NtCreateThread 来 创建 进程 中 的 
第 一 个 线程 (主线 程 ) ,创建 好 后 主线 程 挂 起 并 未 启动 执行 。 

(9 癌 环 境 了 于 系统 csrss. exe( 除了 管理 控制 台 窗 口 操作 外 ,对 进程 和 线程 的 创建 与 终结 
也 需要 问 csrss. exe“ 汇报 ”) 通知 "进程 创建 成 功 " 的 消息 。 

加 启动 步 怠 @ 中 创建 的 本 进程 首 个 线程 一 主线 程 。 

@ 执行 APC :用户 空间 初始 化 ,加 载 和 连接 除 系统 DLL( nidll. dl 和 kernel32. dll) 外 的 
各 个 DLL。 


66 


Re 第 4 章 ”进程 与 线程 的 创建 


步骤 山 非 常 简单 ,限于 篇 幅 我 们 在 此 略 过 ,重点 来 看 步骤 @、 多 和 四 ,这 几 步 是 理解 线程 
和 进程 创建 的 核心 。 先 来 看 步 又 @)。 

1. 步骤 @) 

1) 创建 EPROCESS 

首先 需要 创建 EPROCESS 结构 体 , 这 是 进程 在 执行 体 层 的 体现 和 操作 抓 手 ,不 但 要 创建 
还 要 初始 化 。 这 里 要 强调 的 是 EPROCESS 是 被 创建 进程 的 数据 结构 而 不 是 当前 进程 (创建 
者 进程 ) 的 ,当前 进程 作为 被 创建 进程 的 父 进 程 (例如 explorer. exe) 为 其 分 配 数据 结构 , 父 进 
程 自 己 的 数据 结构 早 就 完成 了 ,我 们 在 此 以 “ 子 进程 ” 指 代 被 创建 进程 。 

2) 创建 句柄 表 和 进程 内 存 页 面 表 

接 下 来 要 为 子 进程 创建 句柄 表 和 进程 内 存 页 面 表 ( 后 文 在 内 存 管 理 相 关 曹 节 中 会 有 话 
细 描 述 ) ,同时 为 页 面 表 复 制 一 份 系统 空间 的 页 面 映 射 关 系 。 因 为 在 Windows 系统 中 ,所 有 
进程 的 地 址 空间 的 系统 空间 部 分 (例如 32 位 系统 中 地 址 空间 高 于 0x80000000 的 部 分 ) 的 地 
址 映射 是 一 样 的 (严格 来 说 也 有 几 处 不 一 样 ,后 文 详细 描述 ,这 里 忽略 不 计 )。 

3) 初始 化 KPROCESS 

人 蚀 建 完 页 面 映 射 关 系 后 ,NtCreateProcess 开始 初始 化 KPROCESS 结构 。 注 意 ,这 里 
KPROCESS 已 经 创建 过 了 ,可 以 直接 初始 化 。 因 为 KPROCESS 作为 进程 控制 块 (PCB) 是 
EPROCESS 的 一 部 分 ,是 EPROCESS 中 的 第 一 个 数据 结构 ,创建 EPROCESS 时 有 目 然 也 就 同时 
分 配 了 KPROCESS 的 内 存 , 相 当 于 创建 了 KPROCESS, 只 是 没有 初始 化 。 

4) 创建 用 户 态 内 存 空间 

接 下 来 要 创建 子 进 程 的 用 户 态 内 存 空 间 ,并 将 步骤 山中 的 EXE 内 存 映 射 区 再 映射 到 子 
进程 地 址 空间 中 。 但 我 们 当前 处 于 父 进程 中 ,怎么 在 父 进程 中 将 这 个 内 存 映射 区 映射 到 子 
进程 地 址 空间 中 呢 ? 

Windows 提供 了 进程 挂 徘 " 机 制 , 也 就 是 说 在 创建 用 户 态 的 数据 结构 前 ,将 当前 线程 
( 父 进 程 中 的 线程 ) 挂 徘 到 子 进程 中 ,就 像 将 它 “ 过 继 ” 给 别人 一 样 ,等 完成 了 一 系列 创建 工 
作 上 由 把 它 “ 归 还 ”回来 ,如 此 ,创建 过 程 就 像 是 在 当前 进程 日 己 的 空间 中 进行 一 样 。 

在 此 要 调用 KeAttachProcess 将 当前 线程 ( 父 进 程 中 正在 执行 子 进 程 创建 的 线程 )“ 过 
继 ” 给 子 进程 后 青 执行 ,这 样 创建 的 地 址 映射 表 就 是 子 进程 的 了 。 上 述 工 作 完 成 后 再 调用 
KeDetachProcess 将 父 进程 与 子 进程 脱离 , 父 进程 * 回归”, 继续 之 前 的 “事业 ”。 

在 32 位 系统 中 每 个 进程 的 用 户 态 空间 和 内 核 态 空间 的 大 小 之 比 大 致 为 1 :1 或 者 3 :1。 
3 :1 的 情况 比较 少见 ,这 需要 更 改 配置 ,大 多 数 情况 下 还 是 2 GB 的 用 户 态 空间 和 2 GB 的 内 
核 态 空间 (1 :1 格局 ) 。 但 是 这 2 GB 内 存 空 间 也 不 是 都 能 使 用 ,比如 在 内 存 空间 中 上 、 下 限 
的 64 KB 内 存 空间 就 是 禁区 ,是 无 法 访问 和 使 用 的 。 如 图 4 一 4 所 示 是 NtCreateProcess 执行 
完成 后 用 户 态 空间 的 内 存 布局 。 

注 : 这 里 所 说 的 内 存 空间 是 虚拟 内 存 空 间 而 不 是 物理 内 存 空间 ,虚拟 内 存 空间 的 大 小 和 
初始 布局 对 每 个 进程 都 是 一 样 的 ,关于 虚拟 内 存 空间 和 物理 内 存 空间 后 文 会 有 详细 描述 
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0x80000000 
第 一 个 线程 的 TEB， 占 用 一 个 页 面 
第 二 个 线程 的 TEB， 占 用 一 个 页 面 
各 线程 堆栈 


，、， ，，， 进程 堆 
用 户 态 空间 


未 初始 化 数据 段 


初始 化 数据 段 


第 一 个 线程 的 堆栈 
0x00000000 


图 4-4 用 尸 态 内 存 空间 示意 医 


5) 映射 ntdll. dll 

用 户 态 内 存 空间 布局 完成 后 还 要 把 ntdll. dll 映射 到 内 存 空间 中 。ntdll. dll 是 Windows 
系统 中 非常 重要 的 系统 库 , 许 多 系统 调用 接口 函数 、APC 分 发 机 制 相关 图 数 .进程 /线程 初始 
入口 函数 .DLL 加 载 连接 机 制 函 数 等 关键 方法 都 “人 硬 写 ” 在 ntdll. dll 中 。 也 就 是 说 ,ntdll. dl 
要 作为 系统 中 第 二 个 被 加 载 的 PE 模块 紧 随 在 EXE 文件 之 后 。 

因为 进程 创建 过 程 执行 到 这 里 还 有 许多 必要 的 模块 没有 被 加 载 。 我 们 知道 一 个 进程 要 
执行 ,其 EXE 文件 除了 上 自身 的 一 些 固 有 功能 外 大 多 还 要 依赖 与 其 他 PE 模块 的 “ 赋 能 ”。 可 
是 这 些 模块 怎样 为 EXE 赋 能 呢 ? 而 这 些 基 本 都 运行 在 用 户 态 空间 的 模块 怎么 才能 在 内 核 
态 进 行 加 载 和 连接 呢 ?” 这 里 面 就 涉及 异步 过 程 调用 ( APC) 机 制 了 ,APC 在 从 内 核 态 返回 用 
户 态 的 空当 执行 ,而 这 个 “ 空 窗 时 机 ”正好 是 各 个 模块 进行 加 载 和 连接 的 最 好 时 机 ,因为 一 旦 
到 用 户 态 就 要 执行 人 口 函 数 了 ,而 这 要 求 所 有 模块 必须 已 经 连接 。 

模块 的 连接 要 用 到 PE 导 人 表 .导出 表 机 制 ,我们 在 后 文中 会 分 别 介绍 APC 和 PE 模块 
的 这 些 机 制 。 

6) 创建 和 初始 化 PEB 

接 下 来 要 创建 和 初始 化 进程 环境 块 (PEB)。PEB 是 进程 在 用 户 态 的 体现 ,以 方便 执行 
用 户 态 进程 的 各 种 操作 。 

但 我 们 知道 ,在 虚拟 地 址 空间 中 ,各 进程 的 内 核 态 地 址 空间 映射 是 基本 一 致 的 ,但 是 在 
用 户 态 却 各 有 各 的 空间 映射 。PEB 是 用 户 态 的 数据 结构 ,虽然 其 创建 的 基 址 都 一 样 ,但 这 毕 
范 是 子 进 程 的 数据 结构 ,而 我 们 当前 处 于 父 进 程 上 下 文中 ,创建 的 PEB 要 体现 在 子 进程 的 地 
址 映射 中 ,怎么 办 ? 方法 还 是 借用 "进程 挂靠 > 机制,PEB 也 好 ,TEB 也 罢 , 都 会 体现 在 子 进 
程 的 地 址 映射 中 。 有 关 进 程 挂 徘 的 机 制 后 文 还 会 描述 ,这 里 只 是 简单 提 一 下 。 
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PEB 创建 完成 后 , 便 将 EPROCESS 加 入 到 PsActiveProcessHead 链表 中 。 这 个 链表 是 
Windows 系统 中 的 全 局 链表 ,记录 看 系统 中 的 所 有 进程 。 

至 此 ,进程 环境 构建 完毕 ,步骤 书 执 行 完 成 ,其 过 程 如 图 4 一 5 的 上 半 部 分 所 示 ,线程 创 
建 和 运行 的 容器 环境 已 经 具备 , 接 下 来 要 创建 子 进 程 的 运行 实体 一 一 主线 程 。 


一 一 一 CO COC 一 .COC 一 CC 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


初始 化 上 述 

EPROCESS 

结构 为 子 进程 创 
建 句 栖 表 


创建 子 进 程 的 页 面 

表 ， 并 且 上 复制 系统 
初始 化 上 归 评 安 间 的 而 面 肌 碳 关系 
ee 归还 字 间 的 页 面 映射 美 系 


用 户 态 空间 ， 
并 将 EXE 文 件 
映射 进去 


结构 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 创建 子 进程 的 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 


将 ntdll.dll 喘 身 | | 
外 生生 挂靠 1 | 创建 PEB 并 对 | | 
一 | | 其 进行 初始 化 | | | ，， [将 新 建 的 EPROCESS 
| | | 归还 加 入 到 
| 了 | PsActiveProcessHead 
了 进程 环 
| ， 链表 中 = 
a eo | 
eee ese ee | ”” 受 调 度 返回 用 户 态 
I 空间 后 的 执行 入 口 ， | 
ph, ss se sds ss ns es esd ee, | 由 kemel32.dll 提 供 | 
为 第 一 个 线程 创建 用 户 态 空间 堆栈 BasepCreateStack | - | 
| 中 进程 中 首 个 线程 |]! 
线程 环 包 < 市 创建 线程 原始 上 下 文 BasepInitializeContext， | EIP BaseF rocessStartThunk 
| I HT 和 
| 境 构 建 (BasepC reateFirstThread) 设置 CONTEXT 中 各 寄存 器 的 值 | 进程 中 其 他 线程 : I 
| EIP=BaseThreadStartThunk | 
| 创建 线程 NtCreateThread | | | 


图 4 一 5 NtCreateProcess 执行 全 过 程 示 意图 


如 图 4 一 5 的 下 半 部 分 所 示 ,创建 子 进程 的 主线 程 有 三 个 基本 步骤 . 

第 一 步 ,创建 主线 程 的 用 户 态 堆栈 。 我 们 在 创建 进程 的 时 候 已 经 完成 了 虚拟 地 址 空间 
的 创建 和 初始 化 。 但 由 于 堆栈 是 与 线程 相关 的 ,因此 只 能 在 创建 线程 的 时 候 创 建 堆栈 。 

第 二 步 , 创 建 原 始 上 下 文 ,设置 上 下 文 的 各 个 域 值 。 这 个 上 下 文 作为 参数 传递 给 下 一 步 
的 NtCreateThread ,包含 了 线程 的 人 口 地 址 . 非 APC 方式 返回 用 户 态 空间 后 的 指令 指针 等 重 
要 信息 。 例 如 进程 主线 程 ( 诈 个 线程 ) 返 回 用 户 态 后 的 人 口 图 数 是 BaseProcessStartThunk , 非 
首 个 线程 的 入 口 负数 则 是 BaseThreadStartThunk 。 这 个 上 下 文人 稼 造 了 线程 在 真正 返回 用 户 态 
执行 时 的 上 下 文 环境 。 

第 三 步 ,上 述 两 步 完 成 后 开始 线程 创建 的 实质 操作 一 一 执行 NtCreateThread 。 
NtCreateThread 执行 全 过 程 如 图 4-6 所 示 。 


判断 是 人 否 为 


用 户 态 线程 


C0 系统 态 线程 


创建 TEB， 并 对 不 需要 创建 TEB， 
ETHREAD 进 行 但 ETHREAD 入 口 
人 口 初始 化 要 这 行 初始 化 


| 插入 到 系统 竺 线程 初始 化 


a 和 调度 线程 列表 KeInitThread 


KRe386InItThreadWithContext 
图 4-6 NtCreateThread 执行 全 过 程 示意 图 


1) 解构 NtCreateThread 创建 线程 

如 图 4-6 所 示 ,我们 直接 从 NtCreateThread 开始 看 创建 线程 的 主要 步 又 

(1) 创建 和 初始 化 ETHREAD 

首先 创建 线程 的 执行 体 对 象 ETHREAD。 与 进程 类 似 ,线程 在 执行 体 层 也 具有 对 应 的 执 
行 体 层 数据 结构 ETHREAD ,其 具体 域 值 在 上 文 也 有 描述 ,创建 完成 后 还 需要 对 其 初始 化 。 

(2) 为 线程 准备 数据 结构 

ETHREAD 完成 初始 化 后 ,要 判断 被 创建 的 线程 是 用 户 态 线程 还 是 内 核 态 线程 , 接 下 来 
为 这 两 种 线程 准备 的 数据 结构 是 不 一 样 的 。 

针对 用 户 态 线程 要 创建 和 初始 化 TEB。 与 PEB 类 似 ,TEB 是 线程 在 用 户 态 的 数据 结构 ， 
方便 针对 当前 线程 进行 用 户 态 的 操作 。 

除了 构建 TEB ,还 需要 对 ETHREAD 中 的 线程 入 口 赋值 ,比如 StartAddress 和 Win32StartAddress， 
前 者 是 kernel32. dll 为 线程 准备 的 人 口 ,对 于 进程 中 的 站 个 线程 为 BaseProcessStartThunk , 对 
于 其 他 线程 则 为 BaseThreadStartThunk。 如 图 4 一 6 所 示 , 这 两 个 接口 是 通过 线程 创建 过 程 的 
第 二 个 步骤 中 的 上 下 文人 参数 CONTEXT 传 到 NtCreateThread 中 的 。Win32StartAddress 是 由 编 
译 器 或 用 户 指定 的 线程 人 口 ,针对 主线 程 (一 般 就 是 首 个 线程 ) 编译 器 可 设置 为 
mainCRTStartup, 它 为 线程 准备 一 些 运 行 环境 ,特别 是 设置 结构 化 异常 处 理 机 制 来 保护 线程 
的 执行 ;对 于 其 他 的 线程 , 则 由 用 户 来 指定 入 口 OEP( Original Entry Point ,原始 人 口 点 ) 。 

针对 内 核 态 线程 就 不 需要 创建 TEB 了 ,这 种 线程 不 会 在 用 户 态 运行 ,日 然 也 就 不 需要 用 
户 态 的 数据 结构 了 ,有 了 反而 还 是 累 属 ,但 人 口 国 数 还 是 要 的 , 即 ETHREAD 的 StartAddress 
域 ,其 值 与 用 户 态 的 StartAddress 域 值 一 样 ,作用 相同 ,但 是 Win32StartAddress 就 不 需要 了 。 
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(3) 初始 化 线程 

上 述 两 种 线程 殊途同归 后 则 马上 初始 化 线程 , 即 执行 KeInitThread 负数 ,这 是 线程 创建 
最 重要 的 步骤 ,包括 初始 化 KTHREAD 结构 初始 化 目标 线程 的 APC 机 制 \ 创 建 线程 内 核 态 
堆栈 在 内 核 态 堆栈 中 设置 线程 运行 上 下 文 等 ,我 们 稍 后 再 来 展开 这 些 步 又 

(4) 线程 挂 起 等 待 调度 

线程 初始 化 完成 后 ,会 将 线程 搬入 待 调度 队列 中 ,线程 处 于 挂 起 状态 。 此 时 的 线程 就 好 
像 是 刚刚 执行 完 时 间 片 后 被 剥夺 了 执行 权 一 样 , 安 安静 静 地 等 待 下 一 次 被 调度 的 时 机 。 还 
会 回环 境 子 系统 注册 ,通知 它 有 个 线程 已 经 创建 完成 了 ,还 会 通知 其 他 注册 了 线程 创建 通知 
回调 的 模块 .该 线程 已 创建 完成 。 至 此 ,线程 创建 万 事 俱 备 ,只 欠 调 度 执 行 的 东风 了 。 我 们 
回头 再 来 看 KeInitThread 对 线程 的 初始 化 。 

2) 解构 keInitThread 初始 化 线程 

(1) 初始 化 KTHREAD 

与 进程 类 似 , 在 内 核 核心 层 线程 也 有 对 应 的 数据 结构 , 即 KTHREAD ,也 就 是 线程 控制 块 
(TCB )。 因 为 TCB 是 ETHREAD 的 第 一 个 数据 结构 (注意 ,这 里 不 是 指针 ), 因 此 为 
ETHREAD 分 配 内 存 的 同时 也 就 构造 好 了 KTHREAD ,因此 这 里 只 需要 初始 化 。 

(2) 初始 化 线程 的 APC 机 制 

APC 的 名 称 很 好 地 描述 了 它 的 运行 方式 。 在 从 内 核 态 向 用 户 态 返回 的 过 程 中 ,Windows 
会 日 动 执 行 APC ,APC 在 队列 中 等 待 被 执行 。 在 线程 和 进程 创建 过 程 中 ,除了 EXE 文件 和 
ntdll. dl 的 加 载 ,其 他 PE 文件 的 导入 加 载 和 连接 都 要 交 给 APC 来 完成 ,这 是 因为 这 些 库 无 
法 在 内 核 态 完成 导入 、 加 载 和 连接 ,只 能 回 到 用 户 态 实现 。 而 且 回 到 用 户 态 还 不 算 完 ,还 要 
能 冉 次 返回 内 核 态 ,就 像 时 光 穿 梭 机 一 样 有 来 有 回 ,这 种 神奇 的 操作 我 们 会 在 后 文 许 细 摘 
述 ,现在 我 们 只 要 知道 有 这 么 回 事 就 行 。 

(3) 创建 内 核 态 堆栈 

接 下 来 要 创建 内 核 态 堆栈 ,前 面 的 步骤 中 已 经 针对 首 个 线程 创建 了 用 户 态 堆栈 ,这 里 没 
有 太 多 可 解释 的 。 

(4) 构造 返回 用 户 态 空间 的 上 下 文 

最 后 要 通过 Ke386InitThreadWithContext 设置 线程 原始 上 下 文 (CONTEXT), 这 个 
CONTEXT 大 有 讲究 ,其 作用 是 在 内 核 态 堆栈 中 构造 一 些 “ 假 ”的 框架 ,伪造 被 创建 线程 在 用 
户 态 空间 的 运行 环境 ,使 其 在 返回 用 户 态 的 过 程 中 按照 我 们 伪造 的 这 个 上 下 文 来 执行 ,例如 
进入 伪造 的 人口 函数 等 。 如 图 4 -7 所 示 为 “ 假 ” 框 架 的 布局 ,其 中 . 

> 堆栈 最 底部 是 FX_SAVE_AREA 框架 ,用 于 浮 点 处 理 需 ; 

> 沿 看 堆栈 生长 方 回 往 上 一 层 是 目 陷 框 织 KTRAP_FRAME ,这 个 框架 与 我 们 在 系统 调 

用 中 讲述 的 日 陷 框 架 的 结构 完全 一 致 ,当然 也 只 有 用 户 态 线程 的 系统 调用 才 会 存在 
日 陷 框 染 ， 
> 再 往 上 是 一 个 图 数 调 用 框架 StartFrame ,是 为 最 上 层 的 切换 框架 CtxSwitchFrame 中 的 
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一 个 接 口 提供 参数 的 吕 
我 们 来 看 图 4 -7 中 最 右边 的 虚线 框 ,里 面 描 述 了 切换 框架 和 调用 框架 的 实际 值 。 


人 |] | [DR 人 
CtxSswitchFrame RetAddr KiThreadStartup 


| | 

| | 

| | 

| 

E | | 

| | 

| | 

! PspUserThreadStartup( 用 户 芒 ) | 

SystemRoutine | PspSvystemThreadStartup( 系 统 态 ) ; 

人 StartRoutine | 
堆栈 生 I | BaselhreadStartupThunk/BaseProcessStartThunk/ | 
1 1 

| | 

| | 

| | 

| | 

I | 

| | 

| | 

I I 


长 方向 UserThread 内 核 指 定 入 口 
ntdll.dll 指 定 的 入 口 
kernel32.d11 或 内 核 模块 指定 的 人 入口 
高 址 


伪 框 架 
图 4 一 7 Ke386InitThreadWithContext 在 内 核 态 堆栈 设置 的 伪 框 架 


前 文 说 过 ,线程 初始 化 完成 后 会 挂 人 系统 待 调度 队列 ,从 线程 目 身 的 角度 看 ,仿佛 之 前 
已 经 执行 过 了 ,只 是 用 完了 时 间 卢 后 被 剥夺 了 执行 权 , 等 待 下 一 个 执行 周期 来 临时 继续 执 
行 ,我 们 就 从 这 里 展开 。 

1) 弹出 和 执行 返回 地 址 指针 

假如 这 个 执行 周期 到 来 了 ,系统 调度 框架 从 队列 中 取出 该 线程 ,此 时 线程 刚刚 “出 狱 ”， 
处 于 内 核 态 ,系统 堆栈 中 存放 的 是 上 一 步 构 造 的 伪 框 架 。 被 调度 时 首先 从 CtxSwitchFrame 
框架 中 弹出 前 两 项 ,继而 执行 返回 地 址 指针 RetAddr, 这 个 指针 的 实 参 为 KiThreadStartup 辑 
数 ,也 就 是 要 执行 该 限 数 ,故事 的 “ 点 有 睛 之 笔 ” 束 在 这 里 (CtxSwitchFrame 就 是 切换 框架 ,对 于 
线程 首次 调度 ,其 RetAddr 便 写 为 KiThreadstartup ， 否则 为 call KiSwapContextInternel 的 下 一 
条 指令 , 意 即 执行 完 线程 切换 后 的 下 一 条 汇编 指令 ) 。 

2) 通过 KiThreadStartup 返回 用 户 态 空间 

线程 首次 调度 时 从 KiThreadStartup 开始 执行 ,KiThreadStartup 的 参数 从 石 问 左 是 这 样 的 . 
TrapFrame .UserThread ,StartContext .StartRoutine 和 SystemRoutine ,有 心 的 读者 会 发 现 这 个 参数 
布局 与 系统 堆栈 中 辐 两 个 框架 (图 4 一 7 中 伪 框 架 中 的 KTRAP_FRAME 和 StartFrame ) 完全 一 
致 。 其 实 这 样 的 布局 正 是 为 KiThreadStartup 参数 准备 的 ,使 KiThreadStartup 的 参数 在 系统 堆 
栈 中 都 能 出 现 。 而 KiThreadStartup 函数 的 作用 是 : 

> 中 断 请 求 级 别 降低 到 APC_LEVEL。 

> 执行 SystemRoutine ,对 于 用 户 态 线程 即 为 PspUserThreadStartup。 

> 通过 KiServiceExit 返回 用 户 态 空间 。 返 回 用 户 态 空间 时 ,内 核 态 堆 栈 中 伪造 的 框架 都 

被 消耗 挥 了 ,堆栈 配 平 。 


Pf 
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3 ) 返回 用 户 态 空间 后 执行 总 人 


返回 用 户 态 空 间 后 ,由 ee 内 核 态 堆栈 构造 的 TRAP_FRAME 中 的 EIP 指针 为 
kernel32. dll 提供 的 BaseProcessStartupThunk 或 BaseThreadStartThunk, 即 线程 的 用 户 态 空间 
总 和 人口 ,因此 返回 后 会 从 这 个 总 人 口 开 始 执行 ,继而 执行 用 户 提 供 的 总 入口 OEP。 

4) 步骤 5 的 梳理 

不 难 发 现 ,总 人 口 执行 的 核心 是 SystemRoutine。SystemRoutine 的 实 参 是 ntdll. dll 证 傣 
的 PspUserThreadStartup ( 用 户 态 线程 ) 或 PspSystemThreadStartup ( 内 核 态 wep 作为 用 户 态 
的 和信 口 ,PspUserThreadStartup 的 作用 如 下 : 

> 将 中 断 请 求 级 别 上 升 到 APC_LEVEL。 
> 初始 化 模块 加 载 的 APC 并 入 队 ;APC 以 ntdll. dl 中 的 LdrInitilizeThunk 作为 APC 例 程 
挂 人 该 线程 队列 ,该 旺 数 的 作用 是 加 载 和 连接 其 他 PE 模块 ,但 不 会 立即 执行 ,而 是 等 
竺 从 内 核 态 切换 到 用 户 态 或 中 断 请 求 级 别 从 APC_LEVEL 降 到 PASSIVE_LEVEL 时 
才 会 执行 。 
> 从 APC_LEVEL 返回 原 中 断 处 理 级 别 。 
可 以 认为 PspUserThreadStartup 的 作用 主要 是 加 载 和 连接 剩余 的 PE 模块 。 
等 PspUserThreadStartup 执行 完成 , 伪 框 架 中 的 CtxSwitchFrame 和 StartFrame 也 都 消耗 完 
了 ,也 就 该 执行 用 户 态 空间 的 返回 操作 了 。 返 回 操作 都 执行 完成 就 会 正式 回 到 用 户 态 空间 ， 
剩 下 的 事情 就 与 系统 调用 返回 如 出 一 入 了 。 
我 们 以 用 户 态 线程 创建 为 例 ,下 观 展示 一 下 进程 和 线程 创建 的 过 程 ,如 图 4 一 8 所 示 。 
| 创建 EPROCESS&KPROCESS | 


调用 并 消耗 切换 框架 ”| 系统 中 线程 总 入 口 
KiThreadstartup 


加 六 


| 
| 5 
CixswitchFrame 
a 
en) |KTRAP FRAME 
| [FX SAVE AREA 人 - 
| 二 本 开本 作 框架 1| 调用 mtdll.dll 提 供 的 总 程 : 
| 有 冤 W 性 未 寺 | 入 口 PspUserThreadStartup LdrinitilizeThunk APC LEVEL 
= => iy : 加 载 和 连接 其 他 DLL| 
执行 完毕 | 
返回 用 户 态 空间 
KiserviceExit 


PASSIVE LEWVEL 


执行 KTRAP FRAME 的 指令 指 
针 : BaseThreadStartupThunk 


用 户 态 进程 指定 入 口 
和 
图 4-8 用 户 态 线程 创建 全 过 程 
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注意 ,在 执行 APC 的 过 程 中 ,LdrInitilizeThunk 可 以 在 用 户 态 对 其 余 的 PE 模块 进行 加 载 
和 连接 ,这 是 在 返回 用 户 态 空间 之 前 就 执行 的 。LdrInitilizeThunk 是 ntdll. dll 中 的 接口 ,不 需 
要 连接 便 可 耳 接 调用 。 最 后 执行 用 户 态 线程 ,进程 和 主线 程 的 创建 工作 也 就 完成 了 。 

整个 执行 过 程 中 ,线程 一 共有 两 次 回 到 用 户 态 : 

> 调度 的 时 候 出 于 降低 中 断 请 求 级 别 的 原因 执行 APC ,APC 会 返回 到 用 户 态 执行 动态 

库 加 载 孙 数 LdrInitilizeThunk , 执行 完 再 次 返回 内 核 态 ; 
上 一 步 返回 内 核 态 后 触发 KiServiceExit ,再 次 返回 用 户 态 后 执行 PspUserThreadStartup, 
这 也 是 一 般 的 线程 人口 函数 。 

还 要 注意 的 是 ,LdrlInitilizeThunk 会 创建 进程 的 堆 结 构 , 以 存储 加 载 和 连接 的 PE 模块 信 
息 。 堆 与 栈 不 同 , 推 的 生长 方 回 是 从 低 址 回 高 址 。 有 具体 地 看 ,LdrmitilizeThunk 创建 完 堆 以 后 
会 分 配 一 个 PEB_LDR_DATA 结构 ,该 结构 中 包含 了 三 个 链表 ,用 于 记录 所 加 载 的 模块 ,这 二 
个 链表 通过 LDR_DATA_TABLE_ENTRY 结构 将 加 载 的 模块 串联 起 来 : 

> InLoadOrderModuleList: 表 示 模 块 按 加 载 顺 序 挂 载 到 链表 中 。 

> InMemoryOrderModuleList :表示 模块 按 内 存 基 址 由 低 到 高 的 顺序 挂 载 到 链表 中 

> InImitializationOrderModuleList :表示 模块 按 初 始 化 的 先后 顺序 挂 载 到 链表 中 。 

在 PEB_LDR_DATA 结构 之 上 ,再 为 ntdll. dl 和 EXE 文件 分 配 LDR_DATA _TABLE 
ENTRY 数据 结构 ,记录 模块 基 址 人口 等 信息 ,并且 今后 每 加 载 一 个 模块 就 在 堆 中 按 堆 生长 
的 方向 分 配 一 个 LDR_DATA_TABLE_ENTRY 结构 ,如 图 4 一 9 所 示 。 当 然 ,模块 和 模块 之 间 
还 会 存在 依赖 关系 , 在 加 载 一 个 新 的 模块 时 , 硅 它 依赖 男 外 的 一 个 模块 , 会 先 到 
InLoadOrderModuleList 搜索 一 下 ,如 果 有 则 复 用 ,没有 则 新 建 。 


LDR DATA TABLE ENTRY: 
NtModule 


堆 生 长 | |LDR_DATA_TABLE_ENTRY: 
方 回 ExeModule 


InLoadOrderModuleList ExeModule NtModule 其 他 


InMemoryOrderModuleList 
InInitializationOrderModuleList NtModule 其 他 


PEB LDR DATA 


图 4 一 9 ”LdrInitilizeThunk 为 模块 加 载 分 配 的 数据 结构 
至 于 其 他 具体 的 加 载 和 连接 细节 ,包括 PE 导 人 表 . 绑 定 导 人 导出 表 . 重 定 位 等 ,由 于 涉 
及 Windows PE 文件 的 相关 技术 并 且 比 较 繁 珊 ,我 们 在 这 里 暂时 不 做 展开 。 
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本 章 小 结 


线程 是 操作 系统 运行 的 基本 单位 。 在 Windows 中 之 所 以 能 运行 远 多 于 CPU 核 数 的 进 
程 数 完全 有 赖 于 线程 调度 机 制 。 本 章 介 绍 了 线程 和 进程 的 数据 结构 以 及 线程 创建 的 过 程 。 
线程 的 创建 过 程 本 质 上 也 是 两 个 状态 (用 户 态 和 内 核 态 ) 的 堆栈 “这 访 布局 ”的 过 程 。 
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我 们 知道 ,在 操作 系统 中 进程 运行 的 基本 单位 是 线程 。 每 个 线程 都 会 在 CPU 上 执行 一 
段 时 间 (CPU 赋予 的 时 间 片 ) ,这 个 时 间 片 可 能 是 一 个 或 几 个 系统 时 钟 周期 ,而 时 钟 周期 是 
非常 短 的 。 我 们 在 使 用 操作 系统 的 时 候 , 即 使 开 了 很 多 进程 也 可 以 比较 流畅 地 使 用 ,一 方面 
是 因为 每 个 进程 中 有 很 多 线程 是 不 运行 的 (例如 线程 处 于 等 待 状态 而 不 在 被 调度 执行 的 范 
畴 ) ,但 主要 还 是 因为 线程 调度 与 切换 机 制 ,利用 时 间 片 快速 地 切换 线程 ,让 每 个 线程 “ 雨露 
均 沾 ”CPU 时 间 ,从 而 造成 一 种 假象 :系统 中 进程 的 每 个 线程 都 在 运行 。 在 CPU 数量 有 限 而 
线程 数量 无 限 的 情况 下 ,就 是 徘 这 种 “三 个 锅 两 个 盖 来 回 倒 腾 ” 的 方式 保证 了 进程 的 实时 性 
和 可 交互 性 ,这 也 是 现代 操作 系统 的 基本 特征 。 

本 曹 我们 将 按照 图 5 一 1 所 示 的 提纲 来 介绍 绪 程 调度 与 切换 是 怎么 回 事 。 

线程 调度 发 生 的 时 机 
_| _ 线 程 的 各 种 状态 

线程 调度 优先 级 
人 线程 与 进程 优先 级 类 | 


二 埋 询 医 动 与 耽 往 关系 


线程 切换 发 生 的 条 件 


[ 
| 中 断 请 求 级 别 是 什么 
线程 切换 “中 。 中 断 请 求 级 别 与 线程 切换 的 关系 “日 /一 一 一 一 
Rs 天 二 es 在 什么 中 断 请 求 级 别 上 可 以 发 生 线 程 切换 


] 
啊 层 与 切 岳 线程 切换 时 哪些 数据 结构 会 变化 
系统 坊 堆栈 消长 的 情况 
线程 切换 的 过 程 若干 青 存 器 的 使 用 mm 二 闻名 育 二 新 ， 梭 灶 央 半 育 更 新 135 健 育 十 新 


\ 切换 的 执行 者 函数 的 执行 过 程 


s-1 本 章 提纲 


5.1 预备 知识 


5.1.1 线程 调度 


线程 调度 就 是 保证 线程 按 顺 序 执行 ,分享 CPU 时 间 片 的 机 制 。 线 程 调度 发 生 的 时 机 包 
括 以 下 几 类 . 

> 当前 线程 通过 系统 调用 NtYieldExecution 日 愿 礼让 。 

> 当前 线程 在 别 的 系统 调用 中 因 操 作 受 阻 而 半日 愿 地 交 出 运行 权 。 

> 当前 线程 通过 系统 调用 NtSetInformationThread 等 改变 了 日 映 或 其 他 线程 /进程 的 优先 
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色 第 5 章 线程 调度 与 切换 二 天 : 


级 ,使 得 日 己 不 再 具有 最 高 的 运行 优先 级 从 而 让 出 运行 权 。 

> 当前 线程 通过 系统 调用 NtSuspendThread 挂 起 月 身 的 运行 。 

> 当前 线程 通过 系统 调用 NtResumeThread 恢复 了 其 他 线程 的 运行 可 能 会 使 日 己 不 再 
具有 最 高 的 运行 优先 级 从 而 让 出 运行 权 。 

> 当前 线程 通过 进程 间 通 信 线程 间 通 信和 唤醒 了 别 的 进程 ,使 得 日 己 不 再 具有 最 高 的 运 
行 优先 级 。 

> 当前 线程 的 时 间 片 用 完 , 因 而 调度 其 他 线程 运行 。 

> 中 断 的 发 生 导 致 某 个 或 条 些 线程 被 唤醒 ,从 而 使 得 当前 线程 不 由 具有 最 高 的 运行 优 
先 级 从 而 让 出 运行 权 。 

在 系统 中 最 常见 的 就 是 时 间 片 用 完 而 调度 其 他 线程 运行 。 

在 此 站 先 介 绍 下 线程 状态 的 概念 。 线 程 状态 包括 运行 状态 、 就 绪 状 态 、 等 待 状态 、 消 亡 


> 运行 状态 :线程 正在 执行 的 状态 (分 至 CPU 赋 闻 的 时 间 片 )。 
> 就 绪 状 态 : 线 程 在 队列 中 等 修 , 即 将 被 调度 到 CPU 上 运行 时 的 状态 。 在 KPRCB 中 有 


个 DispatcherReadyListHead 队列 数组 ,共有 32 个 元 系 , 代 表 了 32 个 线程 调度 优先 级 
(0 一 31) ,每 个 元 素 代 表 一 个 相应 优先 级 的 线程 队列 ,线程 被 push 到 对 应 的 队列 中 等 
待 执行。 执行 是 按照 优先 级 从 高 到 低 的 顺序 执行 的 (31 优先 级 最 高 ) 。 
> 等 待 状态 :线程 由 于 等 得 系统 中 的 某 个 资源 (例如 锁 ) 或 调用 休 虐 指令 (Sleep) 而 在 等 
待 的 状态 。 这 时 的 线程 不 在 就 绪 队 列 中 ,只 有 等 到 了 想 要 的 资源 才 会 被 调度 到 对 应 
的 就 绪 队 列 。 

> 消亡 状态 :线程 执行 完毕 或 者 被 人 为 终止 ,或 者 遭遇 异常 使 线程 无 法 继续 执行 而 终止 
的 状态 。 

线程 的 切换 与 调度 是 两 个 维度 的 概念 。 所 谓 线程 切换 ,就 是 两 个 线程 执行 状态 的 转变 ， 
涉及 系统 堆栈 指令 指针 寄存 徊 以 及 其 他 寄存 各 上 下 文 的 转换 ,而 且 切 换 的 过 程 中 不 允许 
PASSIVE_LEVEL 和 APC_LEVEL 级 别 中 断 的 发 生 。 而 线程 调度 是 在 当前 线程 的 执行 时 间 片 
使 用 完成 后 决定 下 一 个 时 间 片 让 哪个 线程 来 执行 ,或 者 更 蜗 调 度 优先 级 的 线程 就 绪 的 时 候 
决定 是 否 抢占 当前 线程 的 执行 时 间 户 。 线 程 切换 是 线程 调度 的 结 采 ,但 是 线程 调度 的 结 采 
却 不 一 定 是 线程 切换 。 在 此 要 体会 两 者 的 不 同 。 

上 文 提 到 了 线程 一 共有 32 个 线程 调度 优先 级 ,但 实际 上 Windows 文 持 的 线程 优先 级 类 
只 有 7 个 ,包括 idle lowest ,below normal .normal ,above normal ,highest 和 time-critical ， 其 中 我 
们 比较 第 见 的 是 normal 和 idle。Windows 还 定义 了 进程 优先 级 类 ,包括 以 下 6 个 .idle、below 
normal normal ,above normal ,high 和 real-time, 比如 任务 管理 需 进 程 就 运行 在 high 级 别 , 因 此 
无 论 系 统 有 多 少 进 程 在 运行 ,调用 任务 管理 各 时 系统 总 会 立即 啊 应 。 

这 里 就 比较 令 人 困惑 了 :又 是 进程 优先 级 类 ,又 是 线程 优先 级 类 , 那 它 们 和 32 个 线程 调 
度 优先 级 有 什么 关系 ? 它们 是 怎么 反映 到 线程 调度 的 具体 操作 中 的 ? 其 实 , Windows 将 上 
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述 进程 /线程 优先 级 类 按照 矩阵 对 应 的 方式 与 32 个 调度 优先 级 进行 了 映射 ,如 表 5-1 所 
示 , 表 中 的 数字 表示 线程 调度 优先 级 。 
表 5 一 1 进程 /线程 优先 级 类 与 线程 调度 优先 级 的 映射 关系 
进程 优先 级 类 


线程 优先 级 类 
EE EEC 


olelw | | 
mm | | | aa 
ET 


intl st lie tne lama rs tem 
当 线程 被 调度 的 时 候 会 按照 上 述 映射 关系 进行 调度 优先 级 设置 。 线 程 在 执行 时 间 片 中 优先 
ent rip 


5.1.2 线程 切换 


下 面 我 们 来 看 一 下 线程 切换 ,线程 切换 需要 一 定 的 条 件 。 

首先 ,线程 的 切换 只 能 发 生 在 内 核 态 ( RO0) ,也 就 是 说 只 有 线程 进入 内 核 态 才 有 可 能 进 
行 切 换 。 当 然 ,现在 也 有 一 些 手段 可 以 在 用 户 态 切换 线程 ,例如 DPDK 等 一 些 高 IO 通 量 的 
通信 框架 ,从 协议 栈 到 IO 管理 ,再 到 整个 框架 的 线程 调度 度 和 线程 切换 邦 在 用 户 态 ( R3) 空 
间 运 行 , 但 这 不 属于 操作 系统 线程 调度 和 线程 切换 的 范畴 ,我 们 在 此 不 做 捅 述 。 

其 次 ,线程 切换 需要 CPU 处 于 一 定 的 中 断 请 求 级 别 ( Interrupt Request Level ,IROL ) 。 所 
谓 中 断 请 求 级 别 其 实 是 Windows 提出 的 逻辑 概念 ,就 是 划分 了 在 系统 中 的 中 断 优 先 级 ,CPU 
运行 在 这 些 中 断 优 先 级 上 ,以 决定 中 断 ( 硬 中 断 + 软 中 断 ) 是 否 能 打 断 当前 线程 的 执行 。 定 
义 了 优先 级 ,有 些 系 统 行为 (例如 线程 切换 ) 就 只 能 在 规定 的 级 别 发 生 , 还 有 些 系 统 行为 ( 例 
如 中 断 啊 应 ) 可 以 抢占 优先 级 更 低 的 线程 的 执行 权 。 

Windows 定义 的 中 断 请 求 级 别 如 表 S5 -2 和 5 一 3 所 示 。 

表 S5-2 X86 架构 下 的 中 断 请 求 级 别 定义 


普通 线程 执行 级 别 
异步 过 程 调 用 ( APC) 
线程 调度 .延迟 过 程 调用 ( DPC) 
设备 中 断 、 硬 件 中 断 ,由 设备 驱动 定义 


性 能 分 析 级 别 
时 钟 中 断 级 别 
处 理 器 间 中 断 协同 级 别 


表 S-3 X64 架构 下 的 中 断 请 求 级 别 定义 


普通 线程 执行 级 别 
异步 过 程 调用 (APC ) 
线程 调度 .延迟 过 程 调用 ( DPC) 
可 矫正 机 器 检查 级 别 
设备 中 断 、 硬 件 中 断 , 设 备 驱动 定义 
设备 中 断 . 硬 件 中 断 ,设备 驱动 定义 
| 设备 中 断 . 硬 件 中 断 ,设备 驱动 定义 
13 SYNCH_LEVEL/CLOCK_LEVEL | 同步 级 别 / 时 钟 中 断 级 别 
中 断 请 求 级 别 从 0 到 31 依次 升 蜗 ,也 就 是 说 Windows 一 共 定 义 了 32 个 IRQL。 中 断 请 
求 级 别 要 与 线程 调度 优先 级 区 分 开 , 二 者 完全 是 两 回 事 , 虽 然 都 分 为 32 个 级 别 ,但 中 断 请 求 
级 别 是 对 CPU 说 的 ,而 线程 调度 优先 级 则 是 对 线程 说 的 。 
线程 调度 优先 级 无 论 有 多 少 级 ,都 只 能 处 在 IRQL 的 DISPATCH_LEVEL 优先 级 以 下 ， 
为 DISPATCH_LEVEL 是 线程 调度 发 生 的 级 别 ,无 论 线 程 有 什么 样 的 优先 级 ,都 只 能 在 这 个 
级 别 上 发 生 调 度 ,就 好 像 是 “线程 优先 级 这 个 孙悟空 再 怎么 七 十 二 变 也 跳 不 出 DISPATCH _ 
LEVEL 这 个 如 来 的 手掌 心 ”。 
在 此 我 们 展开 讨论 一 下 IRQL ,首先 来 看 软 中 断 。 顾 名 思 义 , 软 中 断 就 是 由 软件 产生 的 
中 断 ,无 论 在 X86 架构 下 还 是 在 X64 架构 下 软 中 断 都 有 三 个 优先 级 :PASSIVE_LEVEL(0) 、 
APC_LEVEL(1) 和 DISPATCH_LEVEL(2) 。 
> PASSIVE_LEVEL :最 低 优先 级 的 IRQL ,其 他 31 个 IRQL 中 的 任何 一 个 都 可 以 中 断 
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它 。 普 通 线程 ( 非 实时 的 . 非 APC 和 DPC 的 线程 ) 一 般 运 行 在 这 个 IRQL。 这 里 要 强 
调 一 点 ,线程 运行 时 IRQL 不 是 一 成 不 变 的 ,就 拿 普 通 线程 来 说 ,在 进入 线程 切换 阶段 
时 CPU 要 经 历 从 PASSIVE_LEVEL 到 DISPATCH_LEVEL 的 升 高 ,只 有 在 DISPATCH_ 
LEVEL 这 个 级 别 才 会 跳出 线程 优先 级 的 “三 界 之 外 "”。 当 然 , 有 升 高 便 会 有 降低 , 调 
度 完 了 新 线程 要 开始 运行 了 ,IRQL 日 然 也 要 降下 来 。PASSIVE_LEVEL 与 用 户 态 还 
是 内 核 态 没 有 必然 联系 ,在 内 核 态 中 ,线程 也 有 可 能 是 PASSIVE_LEVEL 优先 级 的 。 

> APC_LEVEL :用 于 执行 异步 过 程 调 用 ( APC ) 的 IRQL。APC 的 详细 介绍 放 在 后 文 
中 ,这 里 只 需要 知道 APC 是 在 该 级 别 运行 就 可 以 了 。 

> DISPATCH _ LEVEL :这 个 级 别 用 于 线程 切换 和 执行 DPC( 延 开 过 程 调 用 ) 。 在 这 个 
级 别 运行 , 不 允许 发 生 缺 页 中 断 等 事件 ,因为 不 允许 发 生 等 竺 事件, 故 在 这 个 级 别 运 
行 的 线程 代码 都 使 用 非 分 页 内 存 以 避免 页 面倒 换 的 等 街 过 程 。 

便 中 上 断 主要 用 于 系统 时 钟 处 理 右 间 协 同 中 断 .设备 中 断 等 场景 。 其 中 设备 中 断 对 应 的 

中 断 号 只 有 几 十 个 ,因此 一 般 一 个 中 断 号 对 应 多 个 设备 的 中 断 服 务 例 程 (ISR ) 。 

上 一 章 在 预备 知识 中 曾经 介绍 过 ,线程 切换 时 操作 系统 中 有 些 数 据 结 构 是 要 切换 的 ,如 

> 任务 状态 段 TSS 中 的 IO 权限 位 图 (主要 是 在 VM86 模式 下 有 用 , 绝 大 多 数 线程 的 了 
0 权限 位 图 都 一 样 ) 和 ESP0 这 两 个 域 ( 所 有 线程 的 内 核 态 堆栈 段 选择 子 都 是 一 样 的 ， 
因此 SS0 不 需要 更 换 ) 。 

> GDT 中 的 TEB 和 LDT( 如 条 线程 所 属 进程 需要 的 话 ) 要 更 新 。 

> CR3 寄存 名 要 更 新 ,CR3 寄存 怖 中 存放 了 当前 线程 内 存 空间 地 址 表 的 物理 地 址 ,切换 
了 CR3 寄存 咒 也 就 是 切换 了 用 户 的 内 存 空 间 。 有 具体 细节 我 们 在 后 文中 讲述 。 


THREADI THREAD2 


PASSIVE LEVEL 


rss 


GDI 


PSBARON HRVEE| 


KiSwapContext 
切换 线程 


CR3 寄 存 器 
5-2 线程 切换 示意 图 
这 里 要 强调 的 是 ,只 要 发 生 了 DISPATCH_LEVEL 级 别 或 以 上 的 中 断 请 求 ,无 论 当 时 线 
程 处 于 什么 级 别 ,哪怕 线 程 的 时 间 片 没有 用 完 , 都 会 被 抢占 ,因为 Windows 就 是 一 个 抢占 式 
操作 系统 。 中 断 发 生 时 ,中 断 服务 例 程 (ISR ) 首先 执行 IRQL 非常 高 的 例 程 的 前 半 段 ,之 后 
会 把 后 半 段 作为 低 IRQL 的 延 开 过程 调用 (DPC ) 并 使 之 参与 到 DISPATCH_LEVEL 级 别 的 线 
程 调度 中 来 。DPC 机 制 后 文 会 有 详细 介绍 。 
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5.2 线程 切换 过 程 


线程 切换 是 由 系统 中 的 KiSwapContext 图 数 完 成 的 。 此 处 我 们 不 会 讲述 具体 代码 细 而 ， 
而 是 用 流程 图 .结构 图 的 方式 进行 阐述 ， 比较 直观 。 KiSwapContext 的 人 参 非 常 简单 分 别 是 
当前 线程 和 需要 切换 的 新 线程 的 KTHREAD 结构 指针 ,这 两 个 指针 分 别 被 放 入 ECX 和 EDX 
寄存 融 中 ,通过 FastCall 的 方式 传人 KiSwapContext 。 

图 5 一 3 是 线程 切换 时 堆栈 演变 的 示意 图 ,我 们 用 Current Thread 来 表示 当前 线程 ,用 
New Thread 表示 要 切换 的 新 线程 。 


ESP 


4 个 位 置 


压 栈 保存 
堆栈 和 后 Current Thread 
2 的 调用 框 保 


EDI 寄 存 器 指 问 KTHREAD(Current Thread) 
] “| 区 主要 po KTHREAIXNeW Thread) 
Current Thread 的 内 校 堆 栈 ECX 守 和 存 路 下 四 Waltlrgl(Current [Thread) 


Current Thread 


背景 下 的 寄存 器 


Current Thread 
的 目 阶 框架 


ESP KiSwapContextInternal 


堆栈 生 New Thread 
长 方 问 的 调用 框架 


New Thread 
的 自 陷 框架 


New Thread 的 内 校 堆栈 


New Thread 
背景 下 的 寄存 器 


5-3 线程 切换 时 堆栈 的 演变 

在 图 5 一 3 中 我 们 可 以 看 到 当前 线程 在 运行 时 的 内 核 态 堆栈 框架 ,包括 自 陷 框架 和 调用 
框架 。 在 被 切换 的 时 候 ,KiSwapContext 将 4 个 寄存 带 的 值 压 人 当前 线程 的 系统 堆栈 ,因为 接 
下 来 要 用 到 这 4 个 寄存 器 , 先 将 这 些 寄存 器 的 当前 值 保存 起 来 。 

接 下 来 ,我们 这 样 来 安排 以 下 寄存 央 : 

> 使 EBX 寄存 融 指 回 当 前 CPU 的 KPCR 结构 ; 

> 使 EDI 寄存 顺 指 加 当前 线程 的 KTHREAD 结构 (从 KiSwapContext 传 进来 的 时 候 是 使 

用 ECX 寄存 器 的 ,因此 ECX 寄存 器 从 此 可 以 “解放 了 ”) ; 
> 使 ESI 寄存 器 指向 新 线程 的 KTHREAD 结构 ; 
> 使 刚刚 被 解放 的 ECX 寄存 器 指向 当前 线程 的 Waitlrql 域 。 
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然后 执行 KiSwapContextInternal ,进行 线程 切换 和 堆栈 切换 。 

执行 完成 后 已 经 是 新 线程 的 天 下 了 (内 存 空间 、GDT 的 相关 域 .TSS 的 相关 域 部 是 新 切 
换 线程 的 ) ,这 时 将 新 线程 内 核 态 堆 栈 栈 顶 的 4 个 值 pop 到 对 应 的 寄存 器 里 ,如 此 ,堆栈 中 只 
剩 下 该 线程 上 次 执行 时 留 下 的 调用 框架 和 日 陷 框 架 了 。 

由 此 可 见 , 每 次 线程 切换 的 时 候 , 老 线程 ( 当前 线程 ) 堆 栈 中 除了 目 己 的 调用 框架 和 日 陷 
框架 ,还 包括 了 4 个 寄存 融 的 值 , 这 些 是 老 线程 的 执行 现场 和 和 在 干 寄存 天 在 那个 时 刻 的 值 ， 
就 像 那个 时 刻 被 冰 封 了 一 样 。 当 切换 到 一 个 新 线程 的 时 候 , 新 线程 堆栈 中 也 是 这 些 东 西 , 因 
为 它 曾 经 也 是 老 线程 ,也 曾经 个 剥 守 过 执行 的 权利 ,并 连同 执行 现场 和 4 个 寄存 融 痢 被 压 人 
日 己 的 系统 堆栈 中 。“ 年 年 岁 岁 花 相 似 , 岁 岁 年 年 人 不 同 ” ,只 有 保证 堆栈 结构 和 内 容 安排 的 
“ 花 相 似 ” ,才能 确保 线程 切换 的 ”人 不 同 ”。 

下 面 我 们 来 看 一 下 线程 切换 的 实际 操作 者 KiSwapContextInternal ,主要 执行 流程 如 图 5 一 4 
所 示 。 
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需要 切换 内 存 空间 
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UpdateCR3 , 


至 此 内 存 空间 的 CR3 更 新 为 
更新 已 经 完成 New Process.DirectoryTableBase 
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GDT 
s-4 KiSwapContextInternal 的 主要 执行 流程 


非法 摘 
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KiSwapContextInternal 执行 中 的 主要 流程 如 下 : 
(1) 在 当前 线程 ( 老 线程 ) 的 内 核 态 堆栈 中 压 人 本 线程 的 Waitlrql 和 当前 KPCR 中 的 异 
常 队 列 EXCEPTION_LIST 的 地 址 。 其 中 Waitlrql 域 记 录 在 KTHREAD 结构 中 ,表示 原先 的 
IRQL, 
(2) 更 新 当前 线程 的 内 核 态 堆栈 指针 ( KTHREAD. KernelStack ) 为 当前 的 ESP 寄存 器 的 值 。 
(3) 切换 堆栈 . 
> ESP 寄存 需 赋 值 为 新 线程 的 内 核 态 推 栈 指 人 针 (KTHREAD. KernelStack ) ; 
> EBP 寄存 器 赋值 为 新 线程 所 挂靠 进程 的 KPROCESS 结构 (进程 挂靠 的 概念 在 后 面 会 
详细 讲述 ) ; 
> EAX 寄存 大 赋 信 为 当前 线程 所 挂靠 进程 的 KPROCESS 结构 。 
(4) 两 个 KPROCESS 结构 相 比 较 . 
> 如 果 相 同 , 则 证 明 新 老 线程 是 相同 进程 中 的 两 个 线程 (内 存 空 间 一 样 ,LDT 一 样 , 则 
CR3 寄存 器 与 CDT 中 的 LDT 描述 符 均 不 需要 切换 ) ; 
> 如 果 不 同 , 则 证 明 新 旧 线 程 不 在 相同 进程 中 , 先 根据 条 件 判 断 是 否 要 更 新 GDT 中 的 
LDT ,继而 更 新 CR3 寄存 器 为 新 进程 的 DirectoryTableBase( 页 目录 表 的 物理 地 址 ) ,以 
切换 内 存 空间 。 
至 此 ,内 存 空间 切换 完成 ,ESP 寄存 需 更 新 完成 ( 内核 态 扒 栈 切换 完成 ) ,LDT 更 新 完成 ， 
新 线程 成 为 了 当前 线程 。 当 前 线程 (新 线程 ) 的 内 核 态 栈 顶 结构 如 图 5 一 5 所 示 , 这 是 上 次 线 
程 切换 时 留 下 来 的 现场 。 
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NewThread 的 内 核 堆栈 
图 5S-S$ 新 线程 堆栈 示意 图 


新 线程 首先 要 执行 下 面 两 个 步 


,可 以 看 作 KiSwapContextInternal 执行 的 尾声 ， 

(1) 将 上 次 切换 时 压 入 的 6 个 值 分 别 弹出 到 对 应 的 数据 结构 中 。 

(2) 通过 KPCR 找到 TSS( 任务 状态 段 ) ,更 新 TSS 中 的 WO 权限 位 图 和 ESP0 。 

至 此 KiSwapContextInternal 全 部 执行 完毕 ,当前 线程 已 切换 为 新 线程 。 

综 上 所 述 ,线程 切换 中 最 主要 的 是 系统 堆栈 的 切换 ,其 次 是 某 些 全 局 数据 结构 中 个 别 域 
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值 的 切换 。 由 于 有 了 系统 调用 的 技术 基础 ,线程 切换 过 程 不 难 理解。 
本 章 小 结 


本 童 首 先 介绍 了 线程 调度 的 相关 概念 ,包括 线程 状态 .调度 优先 级 .中断 优先 级 等 ,继而 
以 堆栈 平衡 为 主线 详细 介绍 了 线程 的 切换 过 程 。 


一 


第 (6 了 芭 ” 异 步 过程 调 用 机 制 


Windows 之 所 以 要 支持 异步 过 程 调用 ( Asynchronous Procedure Call, APC) 机 制 ,是 因为 
在 一 些 场景 下 需要 一 种 延迟 处 理 的 方法 ,特别 是 在 内 核 态 时 有 一 些 工作 需要 留 在 用 户 态 处 
理 ,或 者 有 一 些 不 需要 立即 返回 结果 的 非 同步 的 回调 处 理 。 例 如 前 文 介绍 过 的 线程 初始 化 
过 程 需要 加 载 和 连接 除 ntdll. dll 外 的 其 他 动态 库 时 就 使 用 了 APC 机 制 ;再 比如 我 们 在 调用 
网 络 收发 接口 或 者 文件 读 写 接口 (NtReadFile ) 的 时 候 , 往 往 无 法 同步 地 返回 数据 报 文 (同步 
会 阻塞 当前 线程 ) ,这 些 数据 一 般 是 通过 “回调 ” 的 方式 返回 给 应 用 软件 调用 方 的 ,这 种 回调 
方式 就 是 采用 APC 机 制 实现 的 。 例 如 NtReadFile 接口 中 的 ApcRoutine 和 ApcCONTEXT 就 
是 与 APC 相关 的 参数 ,如 图 6 一 1 所 示 。 


_kernel entry NTSYSCALLAPI NTSTATUS NtReadFile( 


HANDLE FileHandle, 
HANDLE Event ， 
PIO_APC_ROUTINE ApcRoutine, 
PVOID ApcContext, 
PIQ STATUS BLOCK IoStatusBlock, 
PVOID Buffer, 
ULONG Length, 
PLARGE INTEGER ByteOffset, 
PULONG Key 

); 


图 6 一 1 NtReadFile 接口 的 参数 描述 


本 章 我 们 将 按照 图 6 一 2 所 示 的 提纲 进行 介绍 。 
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图 6-2 本章 提 纲 
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6.1 APC 的 数据 结构 


APC 是 与 线程 相关 的 ,发 起 APC 请 求 的 只 能 是 当前 线程 ,但 是 目标 线程 则 不 一 定 是 当 
前 线程 ,有 可 能 是 子 进程 中 的 线程 (例如 LdrInitilizeThunk 的 APC 请 求 ) ,也 有 可 能 是 与 自己 
不 相关 的 其 他 线程 (远程 线程 ) 。Win32 API 中 的 QueueUserAPC 方法 是 用 户 态 线程 发 起 
APC 请 求 的 接口 , 它 的 名 称 也 很 好 地 诠释 了 APC 在 线程 中 的 存在 形态 :队列 中 存储 。 在 
KTHREAD 结构 中 也 存在 与 APC 相关 的 队列 和 索引 等 信息 。 每 个 线程 都 有 硅 干 个 APC 队 
列 , 之 所 以 有 多 个 队列 ,一 是 因为 APC 有 内 核 APC 和 用 户 APC 之 分 ,二 是 进程 挂靠 时 要 将 
原生 的 APC 队列 挪 到 他 处 保存 起 来 , 腾 出 位 置 来 保存 挂靠 进程 环境 下 的 APC 请 求 , 这 都 需 
要 队列 的 文 持 ,KTHREAD 结构 中 与 APC 相关 的 字段 如 下 所 示 : 


typedef struct KTHREAD 


{ 
KAPC STATE Apcstate; / /该 数据 域 包 含 了 当前 的 两 个 APC 队列 , 以 及 所 属 进程 和 APC 执 
// 行 状态 
SHORT KernelApcDisable; / /是 否 禁 用 内 核 APC 
UCHAR ApcstateIndex; /7 表示 一 个 枚 举 值 ,OriginalapcEnvironment 表示 当前 APC 
// 是 原生 态 ;AttachedApcEnvironment 表示 当前 APC 是 挂 
// 靠 态 


PKAPC_STATE ApcStatePointer[2]; //ApcState 的 指针 ,在 原生 APC 状态 下 ,0 号 元 素 指向 RpcState， 
/ /1 号 元 素 指向 SavedApcstate; 在 挂靠 APC 状态 下 则 反 过 来 
KAPC STATE SavedApcSstate; // 与 ApcState 结构 相同 ,存储 了 挂靠 环境 下 的 原生 APC 
} KTHREAD, * PKTHREAD; 


我 们 再 来 看 看 ApcStateIndex 的 枚 举 值 和 KAPC_STATE 结构 ,以 方便 我 们 理解 APC 队 
列 ,一 般 情 况 下 ApcStateIndex 会 使 用 OriginalApcEnvironment 和 AttachedApcEnvironment 两 个 
值 , 如 下 所 示 : 


typedef enum KAPC ENVIRONMENT I 


OriginalApcEnvironment, / /原始 的 进程 环境 
AttachedApcEnvironment, / /挂靠 后 的 进程 环境 
CurrentApcEnvironment, / /当前 环境 
InsertApcEnvironment /1 被 插入 时 的 环境 


} KAPC ENVIRONMENT; 


typedefstruct KAPC STATE { 
LIST ENTRY ApcListHead[ MaximumMode];  ”// 当 前 线程 的 内 核 和 用 户 两 种 状态 的 APC 链表 
struct KPROCESS * Process; / /当前 线程 所 属 进程 的 EPROCESS 指针 ， 

//PsGetCurrentProcess() 就 返回 此 值 

BOOLEAN KernelApclnProgress; / /表示 内 校 APC 正在 执行 
BOOLEAN KernelApcPending; / /表示 内 核 APC 正在 等 待 执 行 
BOOLEAN UserApcPending; /7 表示 用 户 APC 正在 等 待 执行 

} KRPC STATE, * PKAPC STATE, * PRKAPC STATE; 


上 述 数 据 结构 也 无 须 过 多 解释 。APC 数据 结构 则 如 下 所 示 : 


typedef struct KAPC { 
CSHORT Type; 
CSHORT Size; 
ULONG SPare0 
struct KTHREAD * Thread; 
LIST ENTRY ApcListEntry; // 用 于 挂 和 人 KAPC STATE 中 的 链表 
PKKERNEL ROUTINE KernelRoutine; / /内 核 模式 APC 执行 函数 的 指针 
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PKRUNDOWN ROUTINE RundownRoutine; / /线程 终止 时 还 有 APC 没 执行 则 会 调用 这 个 函数 
PKNORMAL ROUTINE NormalRoutine; / /指向 用 户 提 供 的 APC 执行 函数 。0 表示 是 一 个 特殊 内 核 
//APC, 否则 是 一 个 普通 的 (内 核 态 /用 户 态 ) APC。 特 殊 
/ /APC 位 于 链表 前 部 , 普通 的 位 于 链表 尾部 
PVOID NormalContext; 
PVOID SystemArgumentl;} 
PVOID SystemArgument2.，; 


CCHAR APcStateIndex: / /APC 环境 状态 , OriginalApcEnvironment 或 
/:/BAttachedApcEnvironment 
KPROCESSOR MODE ApcMode:; // 表 示 该 APC 是 内 核 态 还 是 用 户 态 


BOOLEAN Inserted:; 
} KAPC, * PRAPC, * RESTRICTED PO INTER PRKAPC; 


从 APC 结构 可 以 看 出 ,KernelRoutine .RundownRoutine 和 NormalRoutine 都 是 痕 数 指针 . 
> RundownRoutine: 用 于 扫尾 ,也 就 是 针对 线程 结束 时 APC 队列 不 为 空 的 情况 。 
> KernelRoutine :表示 内 核 态 APC 因数 ,一般 由 内 核 线程 发 起 。 
> NormalRoutine: 指 癌 用 户 态 APC 图 数 的 总 人 口 , 即 kernel32. dl 的 内 部 因数 
ItCallUserApe ,与 线程 初始 化 类 似 , 这 是 普通 APC 子 数 的 总 入 口 ,而 接 下 来 的 
NormalContext 才 真 正 指 加 用户 线程 设置 的 图 数 和 人 口 , 远 观 过 去 ,就 好 像 是 
mtCallUserApe 把 用 户 指定 的 图 数 又 封 效 了 一 层 ,这 也 是 为 了 将 用 户 指定 的 图 数 纳入 
结构 化 异 营 保护 的 框架 之 下 。 
因此 我 们 可 以 这 样 理解 :APC 本质 上 是 一 个 回调 函数 ,这 个 回调 限 数 不 需要 立即 返回 ， 
而 是 等 着 有 结果 或 时 机 成 熟 以 后 再 返回 (这 也 是 回调 函数 的 要 义 )。 但 与 一 般 的 回调 函数 不 
同 ,APC 不 局 限于 为 本 线程 设置 回调 ,也 可 以 为 包括 子 进程 线程 和 远程 线程 在 内 的 其 他 线程 
设置 回调 。 回 调 函 数 的 执行 时 机 也 与 一 般 回调 不 同 ,除了 要 满足 相关 条 件 还 要 有 一定 的 时 
机 选 摔 : 
> 用 户 态 线程 在 从 内 核 态 返回 用 户 态 的 过 程 中 ; 
> 内 核 态 线程 在 中 断 请 求 级 别 降 低 或 线程 切换 的 时 候 。 


6.2 APC 的 运行 机 制 


6.2.1 APC 的 执行 流程 


下 面 我 们 以 APC 的 执行 流程 为 主线 详细 讲述 APC 机 制 的 原理 。 前 文 讲 过 ,在 系统 调用 
的 尾声 要 执行 KiServiceExit 返回 用 户 态 空间 。 在 KiServiceExit 的 执行 过 程 中 有 个 宏 定 义 
CHECK_FOR_APC_DELIVER ,从 字面 上 来 解释 也 比较 开宗明义; 对 投递 的 APC 进行 检查 和 
执行 。 其 对 应 的 系统 函数 为 KiDeliverApe ,我 们 就 从 这 里 展开 。 

KiDeliverApc 国 数 要 求 在 APC_LEVEL 中 断 请 求 级 别 上 执行 ,其 执行 流程 如 下 : 

1) 步骤 1: 执行 内核 模式 APC 队列 中 的 所 有 APC 

针对 每 个 APC 执行 KernelRoutine 因数 并 且 以 NormalRoutine 为 参数 ,执行 完成 后 检查 
NormalRoutine 是 否 为 空 ( 执行 完 KernelRoutine 后 ,NormalRoutine 也 可 能 为 空 了 ) 


局 


NormalRoutine 人 做 和 准备: 还 在 等 待 执行 并 唤醒 : 
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> 若 不 为 空 , 需 要 先 将 IRQL 降 到 PASSIVE_LEVEL ,再 执行 NormalRoutine ,执行 完 还 需 
要 再 回 到 APC_LEVEL 级 别 , 然 后 执行 步骤 2; 

> 右 为 空 则 直接 执行 步骤 2。 

2) 步骤 2: 执 行 用 户 模 式 APC 队列 中 的 首 个 APC 

步骤 2 以 NormalRoutine 为 参数 执行 KernelRoutine 。 

> 右 KernelRoutine 执行 完毕 NormalRoutine 为 空 , 则 尝试 唤醒 正在 等 得 的 线程 ,日 必须 
是 可 唤醒 的 线程。 

二 大 KernelRoutine 执行 完毕 NormalRoutine 不 为 空 , 则 需要 为 在 用 户 态 空间 执行 APC 做 
一 番 准 备 : 执 行 KiInitializeUserApe ,在 用 户 态 堆栈 中 安排 一 番 , 并 干预 返回 用 户 态 空 
间 后 的 指令 入 口 ,使 我 们 投递 的 用 户 模 式 APC 得 到 执行 。 

KiDeliverApe 的 执行 流程 如 图 6 一 3 所 示 。 


明 有 历 系 统 态 的 APC 队 列 ， 
| A。 间 -* 老 刘 
处 理 队列 中 的 全 部 APC 请 求 Thread.Apcstate.ApcListHead[KkernelMode| 


针对 每 个 APC， 判 断 其 


提高 到 
APC LEVEL 
级 别 


NormalRoutine 是 否 为 空 


为 空 不 为 空 


循环 执行 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
执行 APC 中 的 KernelRoutine， 执行 APC 中 约 KernelRoutine， ] 
并 以 NormalRoutine 为 参数 并 以 NormalRoutine 为 参数 
| 

| 

| 

| 

| 

| 

| 

| 

| 

| 

| 


KernelRoutine 执 行 后 
NormalRoutine 不 为 室 
| 泽 低 到 

PASSIVE LEVEL 
级 别 


执行 APC 中 的 NormalRoutine 


ps 
| 
可 
加 
节 


明 历 用 户 态 的 APC 队 列 ， 


先 取出 队列 中 首 个 APC 请 求 


Thread.ApceState.ApcListHead|UserNModel] 


执行 APC 中 的 KernelRoutine， 使 线程 可 唤醒 的 接口 ; 
执行 后 并 以 NormalRoutine 为 参数 扒 行 后 sleepEx、SienalObjectAnd 
| 和 Wait、WaltForSingleOblectEX、 


再 次 恢复 到 
APC _ LEVEL 


NormalRoutine NormalRoutine ; 也 时 | 
韭 空 为 安 WaitForNultipleObjectsEx. 级 别 


NseWaitForMultipleObjectsEx 


态 在 用 户 态 罕 间 换行 符 天 是 否 有 其 他 的 APC 


KilnitializeUserApe keTlestAlertThread 


6 一 3 KiDeliverApe 的 执行 流程 
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注 :假如 线程 在 某 时 刻 调 用 了 Sleep ,那么 在 超时 时 间 点 到 来 之 前 ,无论 怎 么 样 该 线程 都 
不 会 被 唤醒 以 继续 执行 ;假如 将 Sleep 换 作 SleepEx ,哪怕 超时 时 间 点 尚未 到 来 ,我 们 仍然 可 
用 KeTestAlertThread 方法 将 其 唤醒 以 使 其 继续 执行 。 我 们 将 前 者 称 为 不 可 唤醒 ,将 后 者 称 
为 可 唤醒 。 

在 执行 完 KilnitializeUserApe 或 者 KeTestAlertThread 后 ， KiDeliverApe 上 曲 数 就 执行 结束 
了 。 此 处 留 下 了 一 个 伏笔 ,就 是 KiInitializeUserApe 在 线程 的 内 核 态 堆栈 中 构筑 了 一 个 伪 框 
架 ,用 于 干涉 回 到 用 户 态 空间 后 的 执行 步骤 。 下 面 我 们 来 看 看 KiInitializeUserApc 具体 是 怎 
样 安排 系统 堆栈 框架 的 。 


6.2.2 对 堆 枝 框 染 的 安排 


1) ESP 指针 在 系统 堆栈 中 的 指向 

如 图 6 一 4 所 示 ,执行 KiServiceExit 时 ESP 寄存 需 是 指向 TRAP_FRAME 的 起 始 地 址 的 ， 
这 是 因为 KiServiceExit 是 在 内 核 态 的 最 后 一 步 , 但 凡 执 行 到 这 一 步 ,内 核 态 堆栈 中 TRAP_ 
FRAME 以 上 的 框架 都 已 经 消耗 掉 了 。 而 从 KiServiceExit 到 KilnitializeUserApc ,内核 态 堆栈 
没有 变化 ,这 就 意味 着 执行 KiInitializeUserApe 的 时 候 ESP 寄存 器 还 是 指向 TRAP_FRAME， 
也 就 是 指 癌 了 内 核 态 堆栈 中 保存 的 线程 最 近 一 次 进入 内 核 前 完整 的 用 户 态 空间 的 寄存 硕 状 
态 。 这 些 状 态 包括 返回 用 户 态 空间 后 的 指令 指针 、 堆 栈 指针 等 信息 。 因 此 我 们 可 以 操纵 这 
些 指针 ,使 其 指 加 任何 我 们 想 要 的 地 址 。 


执行 KiServiceExXit 时 ESP 指 问 这 时 SystemAreumentl 


‘|SvystemAreument? 


TRAP_ FRAME 
TRAP_ FRAME 
中 保存 了 最 近 
一 次 进入 内 核 


1. 转换 成 CONTEXT 保 存在 用 户 态 堆栈 
用 于 执行 
CONTEXT KeUserApcDispatcher 


时 的 结构 化 民利 处 理 


2. TRAP FRAME 做 如 下 和 更改 
的 寄存 蜗 状 态 


ElIP:KeUserApcDispatcher 用 于 结构 化 异常 
HardwareEsp:A 钼 理 ，8 字 节 
HardwaresegSS: KGODT R3 DATA | B 

SesLsS:KGDT R3 CODE 

太 推 梭 SegDS:KGDT R3 DATA i 
人 SeoES:KGDT R3 DATA 册 记 态 礁 栈 
segFS:KGDT R3 TEB 


图 6 一 4 KiInitializeUserApec 对 于 线程 堆栈 的 操作 
2) 对 内 核 态 堆栈 TRAP_ FRAME 的 保存 
如 图 6 一 4 所 示 , KilnitializeUserApc 首先 将 内 核 态 堆栈 中 的 TRAP_FRAME 保存 到 用 户 
态 堆 栈 中 。TRAP_FRAME 本 来 就 保存 了 上 次 切换 的 寄存 需 信 息 , 那 为 何 还 要 再 保存 到 用 户 
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态 堆 栈 呢 ? 这 是 因为 我 们 要 对 内 核 堆栈 中 的 TRAP_FRAME 做 更 改 ,因此 只 能 将 原来 的 
TRAP_FRAME 保存 在 用 户 态 堆栈 中 。 这 里 做 了 一 下 转化 ,用 户 态 堆栈 是 这 样 调整 的 . 
> 将 TRAP_FRAME 转化 为 CONTEXT 存放 在 用 户 堆栈 中 。 
> CONTEXT 的 上 面 (堆栈 低 址 ) 初 始 化 了 4 个 位 置 ,用 于 存放 KeUserApcDispatcher 的 参 
数 ,NormalRoutine .NormalContext .SystemAregument]l 和 SystemArsument2 。 
> CONTEXT 的 下 面 (堆栈 高 址 ) 要 空 出 2 个 位 置 用 于 KeUserApcDispatcher 的 结构 化 异 
常 处 理 框架 。 这 样 一 来 ,图 6 一 4 中 的 位 置 A 就 成 了 用 户 态 堆栈 的 新 指针 ,而 B 则 是 
老 的 堆栈 指针 。 

3) 对 内 核 态 堆栈 TRAP FRAME 的 更 改 

接 下 来 对 TRAP _ FRAME 进行 更 改 , EIP 指令 指针 修改 为 ntdll. dl 中 的 
KeUserApcDispatcher ,这 是 APC 投递 六 数 的 总 人 口 ,主要 步 又 包括 : 

(1) 在 用 户 态 堆栈 中 构筑 KeUserApcDispatcher 执行 时 的 结构 化 异常 处 理 框架 ,其 中 异 
常 处 理 函 数 为 KiUserApcExceptionHandler, 这 是 专门 用 于 APC 执行 保护 的 函数 。 

(2) 以 NormalContext .SystemArgumentl .SystemArgument2 为 参数 调用 NormalRoutine , 就 
是 前 文 提 到 过 的 kernel32. dl 中 的 IntCallUserApec , 而 NormalContext 中 才 是 真正 的 用 户 指定 
APC 回调 过 程 地 址 ,SystemArgumentl 和 SystemArgument2 都 是 NormalContext 的 参数 。 

(3) 调用 ZwContinue 返回 内 核 态 ,继而 循环 执行 整个 用 户 APC 队列 。 

完成 了 堆栈 的 更 改 后 KilnitializeUserApc 的 使 命 也 完成 了 ， “万 事 俱 备 只 人 炙 执 行 ” ,可 以 预 
出 , 当 线 程 通 过 KiServiceExit 返回 用 户 态 空间 后 ， 执行 的 第 一 条 指令 就 是 KeUserApcDispatcher 
(TRAP_FRAME. EIP 的 值 ) ,其 作 用 是 在 用 户 态 空 间 中 执行 全 部 的 用 户 APC。 

前 文 说 过 ， , KilnitializeUserApc 执行 到 尾声 时 要 调用 ZwContinue 返回 内 核 态 空间 ,要 保证 
就 像 没 有 执行 过 APC 一 样 还 原 系 统 堆栈 的 框 染 。 半 好 有 先 见 之 明 , KilnitializeUserApec 将 原 
生 的 TRAP_FRAME 保存 在 了 用 户 态 堆栈 ,现在 是 该 还 原 的 时 候 卫 。 

ZwContinue 将 用 户 态 空间 堆栈 的 CONTEXT 转换 回 TRAP_FRAME 并 压 人 内 核 态 堆栈 ， 
再 加 上 ZwContinue 的 调用 框架 ,就 形成 了 图 6 一 5 中 内 核 态 堆栈 的 格局 。 从 男 一 个 角度 来 看 ， 
ZwContinue 就 好 像 是 一 次 新 的 系统 调用 ,使 当前 线程 再 次 “ 陷 人 ”系统 空间 中 。 

同时 ,由 于 ZwContinue 将 上 次 的 日 陷 框 染 还 原 , 因 此 APC 执行 之 前 的 用 户 态 堆栈 指针 B 
也 被 还 原 了 回去 (在 内 核 态 的 TRAP_FRAME 中 ) ,从 而 使 用 户 态 堆栈 被 配 平 ,恢复 了 “往日 
的 平静 ” ,如 图 6 一 5 所 示 。 

当然 ,ZwContinue 作为 系统 调用 ,总 有 上 再 次 从 内 核 态 回 到 用 户 态 的 时 候 , 而 回去 的 契机 
就 是 执行 KiServiceFxit ,执行 这 一 步 , 也 就 意味 看 IRQL 会 再 次 进入 APC_LEVEL, 从 而 继续 执 
行 APC。 这 就 比较 有 意思 了 ,过往 的 流程 像 一 个 环 路 又 回 到 了 记忆 中 的 原点 。 
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NormalRoutine 


ome ae 


”CONTEX 指 针 严 一 NtC hums NormalContext KeU SeTApcDi spatcher 
的 商用 框 染 SystemAregument] _ 参数 堆栈 


CONTEXT 转 换 成 
TRAP FRAME 
栈 生 长 TRAP FRAME 


方 回 CONTEXT 


结构 化 异 负 中 
FX SAVE AREA 8 字 节 


内 核 态 堆 栈 用 户 态 堆栈 
图 6 一 5 调用 ZwContinue 时 的 线程 堆栈 


6.2.3 用 户 APC 的 执行 流程 
图 6 一 6 是 用 户 APC 的 执行 流程 ,可 以 看 出 其 执行 脉络 如 下 : 


执行 内 校 态 


线程 代 倍 


由 核 代码 执行 尾声 


‘TY 
执行 KiServiceExit， 执行 执行 所 有 内 核 的 APC 
准备 返回 用 户 态 (2) KiDeliverApe 


KilnitializeUserApc， 为 用 户 态 做 谁 欠 


pe | 

(3) 

/ 
构造 伪 框 架 ， 干巴 有 几 尸 态 执行 入 品 | 


ee i | 
返回 用 尸 态 
执行 KeUserApcDispatcher 


返回 内 核 态 


6-6 用户 APC 的 执行 流程 
(1) 内 核 态 代码 在 即将 返回 用 户 态 时 (在 尾声 执行 返回 用 户 态 的 图 数 KiServiceExit ) 会 
执行 KiDeliverApc( (DD), 
(2) KiDeliverApe 首先 执行 线程 中 所 有 的 内 核 APC ,并 且 调 用 KilnitializeUserApc 构造 内 
核 堆 栈 中 的 伪 框 架 , 为 用 户 态 执行 做 准备 。 
(3) 当 从 KiDeliverApc 返 扩 回 时 ( (2), 也 是 切换 到 用 户 态 的 关键 时 刻 ( (3)) o 
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(4) 在 用 户 态 中 按照 事先 被 干预 的 日 陷 框 染 ( EIP) 执 行 KeUserApcDispatcher, 这 是 用 户 
APC 的 总 人 口 。 

(5) 第 一 个 用 户 APC 执行 的 尾声 要 调用 ZwContinue 来 再 次 返回 内 核 态 ((49) ,作为 系统 
调用 来 讲 ,ZwContinue 又 重新 构造 了 内 核 态 堆栈 的 布局 。 

(6) 当 内 核 态 将 要 切换 到 用 户 态 时 再 次 调用 KiServiceExit, 循 环 往复 又 回 到 了 原点 ,一 
轮 用 户 APC 流程 处 理 完 毕 。 

再 次 执行 的 时 候 KiDeliverApe 不 再 需要 执行 内 核 APC 了 ,因为 第 一 轮 已 经 把 内 核 APC 
全 部 执行 完了 ,按照 上 述 流程 能 跳 过 的 跳 过 ,能 笛 化 的 简化 ,再 次 循环 , 百 到 用 户 APC 消耗 
完毕 。 可 以 看 出 ,内 核 APC 的 执行 是 不 需要 切换 堆栈 的 ,而 用 户 APC 的 执行 则 要 反复 切换 


6.2.4 APC 的 插入 


APC 的 插入 是 来 用 Win32 API QueueUserApc 来 实现 的 , 它 又 调用 NtQueueApcThread ,并 
以 用 户 APC 总 入 口 IntCallUserApc 和 用 户 软 件 指定 的 回调 接口 为 参数 。NtQueueApcThread 
首先 构造 APC 结构 ,继而 调用 KelnseriQueueApc 将 APC 插入 到 KAPC_STATE 的 相应 队 
列 中 。 

那么 到 底 插 入 到 哪个 KAPC_STATE 的 队列 呢 ? 这 是 根据 APC 请 求 中 的 ApcStateIndex 
来 决定 的 : 

> 右 是 OriginalApcEnvironment, 则 插入 到 ApcState 的 队列 中 ; 

> 右 是 AttachedApcEnvironment, 则 插入 到 SavedApeState 的 队列 中 ， 

> 同时 也 要 看 APC 的 ApcMode, 是 UserMode 则 插入 到 KAPC_STATE 的 用 户 APC 队列 ; 

否则 ,插入 到 KAPC_STATE 的 内 核 APC 队列 。 

这 里 还 要 区 分 一 下 APC 的 性 质 :如 果 APC 的 NormalRoutine 为 空 ,那么 这 个 APC 就 是 一 
个 特殊 APC ,会 在 对 应 的 KAPC_STATE( ApcState/SavedApcState ) 的 用 户 模式 /内 核 模式 列表 
( UserMode/ KernelMode ) 中 选择 第 一 个 NormalRoutine 为 空 的 APC ,插入 到 该 APC 的 前 面 ;如 
果 APC 的 NormalRoutine 非 空 , 那 就 是 个 常规 APC ,会 根据 其 他 判断 条 件 选 择 插 人 到 队 头 还 
是 队 尾 。 

搬入 完成 后 也 会 判断 一 下 APC 所 属 线程 是 否 为 当前 线程 。 奢 为 当前 线程 , 则 将 当前 处 
理 骨 的 IRQL 提升 到 APC_LEVEL ,相当 于 发 出 了 一 个 APC 的 中 断 请 求 ; 厂 不 是 当前 线程 , 则 
唤醒 目标 线程 使 之 准备 执行 APC。 执 行 完 这 一 切 后 ,会 调用 KiExitDispatcher 退出 线程 切换 
态 (DISPATCH LEVEL) ,并 降低 IRQL ,从 而 触发 APC 的 投递 (KiDeliverApec ) 。 

前 文 讲 过 ,类 似 NtReadFile 这 样 的 接口 也 是 借用 APC 机 制 实现 的 。 我 们 首先 来 看 
Win32 API ReadFileEx ,其 最 后 一 个 参数 lpCompletionRoutine 就 是 需要 用 户 指 定 的 文件 读 完 
成 后 的 回调 接口 ,用 于 通知 用 户 应 用 软件 ,如 图 6 一 7 所 示 。 


BOOL ReadFileEx( 


HANDLE hFile， 

LPVOID 1pBuffer， 

DWORD nNumberOfBytesToRead, 
LPOVERLAPPED lpOverlapped, 
LPOVERLAPPED COMPLETION ROUTINE lpCompletionRoutine 


); 
6 一 7 ReadFileFx 接口 参数 

ReadFileEx 调用 NtReadFile ,NtReadFile 有 两 个 参数 ApcRoutine 和 ApcContext ， 分 别 对 应 
了 内置 的 APC 例 程 IntCallUserApc 和 ReadFileEx 传递 下 来 的 ]pCompletionRoutine 。 前 文 讲 
过 ,lpCompletionRoutine 会 被 置 于 IntCallUserApe 框架 下 调用 。 类 似 ReadFile/ WriteFile 这 样 
的 VO 操作 会 被 VO 管理 器 统一 翻译 成 IRP(1O 请 求 包 ,在 介绍 驱动 程序 的 章节 中 会 有 详 
细 介 绍 )。IRP 中 有 两 个 域 来 传承 NtReadFile 传递 下 来 的 这 两 个 参数 : UserApcRoutine 和 
UserApcContext, 之 后 便 调用 IRP 的 执行 函数 IoCallDriver。 其 实 , 即 使 执行 到 这 里 ,本 质 上 也 
只 是 将 用 户 赋 予 的 回调 指针 传 了 下 来 。 

当 IRP 完成 后 (该 完成 或 写 完 成 ) ,LO 管理 需 的 系统 图 数 IopCompleteRequest 调用 
KeJnitializeApe 将 上 面 传 下 来 的 两 个 参数 封装 成 APC ,并 且 调 用 KelnsertQueueApc 将 APC 插 
人 到 线程 的 相应 队列 中 (用 户 APC 队列 /内 核 APC 队列 ) ,这 就 与 我 们 前 面 讲 的 内 容 对 接 上 
了 。 调 用 KiExitDispatcher 后 触发 了 APC 的 投递 ,这 样 当 从 内 核 态 加 用户 态 切换 时 ,APC 被 
执行 ,应 用 软件 和 被 回调 通知 。 

APC 也 是 进程 注入 的 常用 机 制 , 即 通过 APC 向 其 他 线程 投递 代码 模块 ,线程 切换 APC 
代码 被 执行 ,从 而 劫持 被 投递 线程 的 执行 权 , 后 文 会 详细 介绍 这 种 机 制 。 


6.3 进程 挂靠 机 制 


最 后 ,我 们 谈 一 谈 进程 挂 徘 机 制 。 

所 谓 进 程 挂 菲 ,本 质 上 就 是 切换 进程 的 地 址 空间 ,更 具体 地 说 ,是 切换 到 目标 进程 的 用 
户 态 空间 (各 进程 的 内 核 地 址 空间 基本 一 致 ) ,从 而 使 当前 线程 的 运行 地 址 空间 环境 发 生 切 
换 。 在 创建 进程 和 为 子 进程 创建 线程 的 过 程 中 ,我 们 会 用 到 进程 挂 菲 机 制 。 

进程 挂靠 的 系统 调用 为 KeAttachProcess , 而 解除 挂 徘 的 系统 调用 为 KeDetachProcess 。 
KeAttachProcess 有 如 下 三 个 作用 : 

> 保证 当前 线程 的 系统 堆栈 在 新 进程 的 地 址 空间 中 有 映射 。 

> 提高 当前 的 IRQL ,使 线程 无 法 调度 切换 。 

调用 KiAttachProcess 实施 实质 的 挂 菲 动作 。 

而 KiAttachProcess 要 完成 以 下 几 项 工作 . 

> 改变 APC 环境 ,将 原生 的 ApcState 暂时 挂 人 SavedApcState 中 ,这 样 在 进程 挂 徘 的 新 

环境 下 投递 的 APC 都 会 挂 和 人 ApcState 中 , 待 进程 挂靠 回去 的 时 候 再 换 回 来 。 
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> 降低 当前 的 IRQL, 使 线程 处 于 可 以 切换 的 中 断 请 求 级 别 ,并 回 到 原来 的 中 断 请 求 
级 别 。 

> 执行 KiSwapProcess ,切换 CR3 寄存 天 ,使 CR3 寄存 硕 指 回 目标 进程 (新 进程 ) 的 页 面 

目录 表 物 理 地 址 ( 进程 地 址 空间 切换 ,只 是 切换 页 面目 录 表 ,不 切换 堆栈 )。 

> 执行 KiExitDispatcher 退出 线程 调度 切换 状态 。 

每 当 一 个 线程 改变 了 优先 级 ,或 者 挂 人 了 一 个 APC 请 求 ,或 者 发 生 了 挂 起 /恢复 了 一 个 
线程 的 运行 ,或 者 从 睡眠 中 唤醒 了 一 个 线程 ,或 者 退出 了 某 个 线程 的 切换 禁区 的 时 候 , 都 会 
执行 KiExitDispatcher, 其 执行 流程 如 图 6 一 8 所 示 。KiExitDispatcher 的 作用 是 : 

> 如 果 DPC( 延迟 过 程 调用 ) 存 在 , 则 执行 DPC。 

> 如 采 PRCB 中 存在 当前 线程 的 剥夺 线程 ( NextThread 不 为 空 ) , 则 进行 线程 切换 。 


请 求 一 个 DISPATCH _ LEVEL 级 别 的 软 中 断 : 
HalRequestsottwarelnterrupt 


不 低 于 执行 KiSwapContext， 但 是 这 个 接口 是 不 返回 的 ， 
级 别 
从 断 点 运行 时 判断 是 
否 存在 APC 待 执行 执行 顺序 
KeLowerlROQL(APC LEVYEL) 
7 提交 内 核 APC: KeDeliverApc 
ee 


KeLowerIRQL(PASSIVE LEVEL) 


PASSIVE LEVEL keLowerlROQL(PASSIVE LEVEL) 


级 别 


图 6-8 KiExitDispatcher 执行 流程 示意 图 


本 章 小 结 


异步 过 程 调 用 (APC) 是 Windows 系统 中 非常 有 用 的 
样 ,APC 是 一 种 异步 通知 /异步 结果 返回 的 框架 机 制 。 

本 音 首 先 介绍 了 APC 相关 的 数据 结构 ,然后 以 堆栈 平衡 为 主线 讲述 了 APC 的 运行 机 
制 ,包括 总 体 的 执行 流程 .在 用 户 态 和 内 核 态 对 各 上 自 堆栈 做 出 的 更 改 和 布局 .返回 用 户 态 空 
加 后 的 执行 过 程 以 及 APC 的 插入 和 调度 流程 ,最 后 讲述 了 APC 的 应 用 实例 一 一 Windows 进 
程 挂 菲 机 制 。 


种 机 制 ,正如 其 命名 所 摘 述 的 一 
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我 们 在 使 用 Windows 的 时 候 经 凋 会 操作 鼠标 或 键盘 等 VO 设备 进行 输入 ,或 依赖 网 卡 
进行 数据 收发 。 那 么 在 我 们 点 击 了 鼠标 或 按 下 键盘 按键 后 ,或 网 卡 接收 到 数据 包 继 而 希望 
通知 应 用 软件 时 ,这 些 触 发 的 信号 怎样 被 系统 接收 和 理解 呢 ? 这 就 要 用 到 系统 中 断 机 制 。 
其 实 介绍 系统 中 断 机 制 要 先 从 CPU 开始 说 起 ,因为 中 断 首 先是 个 硬件 行为 (当然 也 有 软 中 
断 , 这 里 主要 是 指 设 备 中 断 ) ,在 操作 系统 软件 的 作用 下 将 这 些 便 件 行为 翻译 成 软件 信号 ,并 
根据 这 些 软件 信号 执行 要 求 的 不 同 来 择机 执行 ,同时 还 要 考虑 不 同 优先 级 的 中 断 发 生 时 的 


协调 问题 。 
本 章 将 按照 图 7 -1 所 示 的 提纲 来 讲解 中 断 和 中 断 的 后 处 理 过 程 。 
硬件 中 断 
| 软件 中 断 
| IRQ 与 IRQL 的 关系 
与 中 断 相 关 的 数据 结构 /一 
什么 是 中 断 ee IRQL 各 级 别 的 作用 
| 中 断 向 量 、IDT、ISR、 中 断 对 象 MINTERRUPT 之 间 的 关系 
| | 系统 初始 化 时 对 于 中 断 对 旬 的 设置 
| 中断 的 软件 处 理 流程 ”| = 普通 方式 
\ 始 化 时 对 于 对 得 的 一 -一 KeconmmectInterrupt © 
中 断 处 理 | 1 {SS 
F SS 
中 遍 处 埋 9 鹿 关 民 与 后 六 良 | 中 上 发 生 后 的 软件 处 理 流程 
edd 
~ DPC 相 关 的 数据 结构 
’ fe 
”中断 处 理 的 后 半 段 : DPC = DPC 的 入 队 流 程 一 KelInsertQueueDpc 


\” DPC 什么 时 候 执 行 ?怎么 执行 ? 


图 7-1 本 章 提纲 
7.1 中 断 机 制 概述 


7.1.1 中 断 的 硬件 处 理 机 制 


中 断 分 为 可 屏蔽 中 断 和 不 可 屏蔽 中 断 。 在 CPU 的 引 脚 上 ,INTR 中 断 引 脚 代表 可 屏蔽 中 
朵 ,NMI 代表 不 可 屏 藤 中 断 , 这 两 个 引 脚 负 责 中 断 信 和 号 的 输入 与 输出 。 但 是 那么 多 的 IO 设 
备 , 那 么 多 的 中 断 信号 ,只 靠 一 两 个 引 脚 管理 与 输出 也 太 揭 为 其 难 了 。 所 以 每 个 CPU 还 接 
有 一 个 可 编程 中 断 控 制 希 (PIC ) 或 高 级 可 编程 中 断 控 制 厦 (APIC ) 来 赋 能 ,其 中 APIC 更 适合 
多 处 理 器 的 情况 。PIC/APIC 的 作用 如 下 

> 扩展 了 中 断 信 号 的 接 入 源 , 也 就 相当 于 扩展 了 1O 中 断 设 备 的 接 人 量 ; 
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> 将 VO 设备 输入 的 中 断 信和 号 根据 优先 级 向 CPU 发 起 串 行 的 中 断 请 求 , 并 且 屏 项 低 优 
先 级 的 信号 ,有 点 类 似 以 消息 队列 的 方式 仲裁 中 断 并 发 。 
例如 耳熟能详 的 8259A 芯片 就 是 典型 的 PIC ,多 片 8259A 可 以 级 联 , 构 成 主 从 模式 , 主 
片 的 INT 引 脚 连接 CPU ,从 厂 的 IR 一 IR; 引 脚 连接 到 1O 设备 ,而 主 厂 与 从 片 之 间 的 连接 链 
路 是 从 片 的 INT 一 主 片 IR, 一 IR, ,从 而 扩展 了 外 设 的 接 人 量 。 
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图 7-2 8259 芯片 的 构造 与 级 联 示意 图 


图 7 一 2 中 8259A 芯片 的 中 断 优 先 级 别 默认 是 根据 中 断 输入 引 脚 及 ,一 IR, 逐个 递减 的 ， 
也 就 是 说 连接 到 IR。 引 脚 上 的 设备 的 中 断 优 先 级 别 最 高 ,IR, 引 脚 上 的 最 低 ,IRQ 根据 优先 
级 分 别 输入 到 对 应 的 IR 引 脚 。 当 然 ,编程 控制 硕 的 引 脚 中 断 优 先 级 别 完 全 可 以 通过 “编程 ” 
方式 来 定义 ,这 里 不 再 歼 述 。 

APIC 由 如 下 两 部 分 组 成 : 

> 本 地 APIC(LAPIC ) :与 CPU 绑 定 ,用 于 控制 传送 给 逻辑 处 理 需 的 中 断 信号 ,并 产生 

处 理 希 间 中 断 (IPI) ,接收 本 地 中 断 源 (例如 从 IO APIC 传 过 来 的 信和 号、 处 理 需 间 中 
扬 信 号 .APIC 定时 器 中 断 信 号 等 ) 。 

> LO APIC :与 外 部 设备 控制 希 绑 定 ,用 于 接收 外 部 设备 的 中 断 。 

图 7-3 展示 了 LAPIC 与 1/O APIC 的 关系 和 连接 方式 。 

中 断 是 个 由 LO 设备 .中 断 控 制 器 .CPU 和 操作 系统 软件 共同 作用 的 机 制 。 在 PIC/ 
APIC 中 ,中断 请 求 (IRQ ) 与 Windows 中 的 IDT 是 一 一 对 应 的 ,因此 中 断 的 本 质 就 是 PIC/ 
APIC 的 IRQ 和 与 之 对 应 的 中 断 处 理 例 程 之 间 的 协作 。 

但 是 我 们 在 前 面 介 绍 过 IRQL( 中断 请 求 级 别 ) ,那么 IRQ 与 IRQL 是 什么 关系 ?为 什么 
“长 "得 那么 像 ? 原来 ,Windows 为 目 己 量 身 打造 了 一 套 中 断 请 求 优 先 级 方案 IRQL, 这 是 一 套 
纯 软 件 的 中 断 请 求 优先 级 方案 ,与 IRQ 的 关系 是 线性 对 应 的 ,只 是 IRQL 也 守 括 了 软件 中 汤 和 
最 低 的 软件 运行 请 求 级 别 (PASSIVE_LEVEL) , 比 8259A 起 片 的 IRQ 机 制 更 完善 。 那 么 从 更 宏 
观 的 角度 来 说 ,IRQL 机 制 也 更 好 地 保证 了 CPU 不 被 比 当 前 请 求 级 别 低 的 中 断 事件 打扰 。 
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仆 理 器 ] 处 理 跨 2 处 理 器 3 处 理 吕 4 


中 上 断 报 文 | | IPI 中 朵 [ 报 文 | |IPI 中 断 报 文 | | IEI 中 上 断 报 文 | | IPI 


A 


中 断 报 文 处 理 器 系统 总 线 


IO 设备 IPI: 处 理 器 间 中 晰 
yoaric [一 中 断 ” ”APIC: 高 级 可 编程 控制 器 
系统 芯片 组 
7-3 LAPIC 与 IJO APIC 的 关系 和 连接 方式 
中 断 的 处 理 过 程 (硬件 处 理 + 软件 处 理 ) 如 图 7 一 4 所 示 , 由 于 图 示 已 经 展示 得 比较 清 


楚 ,在 此 不 再 详细 叙述 。 


LO 外 芝 和 PIC 阶段 


禹 击 键盘 按键 PIC 的 IR, 引 脚 接收 到 中 PIC 将 该 信号 透 传 到 CPU 的 INTR 
产生 中 断 电 信和 导 断 电 信号 并 转发 给 PIC 引 脚 ， 告 知 CPU 中 断 发 牛 


CPU 执 行 完 当 前 指令 周期 ， 检 
查 到 INTR 有 信号 ， 并 检查 EFLAGS 
守 存 项 以 判断 是 否 允 许 中 晰 


| 
| 
| 
| 
| 
| 
| 
允许 中 断 不 允许 中 断 ”| |! 
| 
| 
| 
| 
| 
| | 
| 
| | 
| | 


CPU 阶段 


PIC 通过 D,-D; 引 脚 将 中 断 问 量 PU 发 信号 给 PIC 的 INTA 引 脚 ， 屏蔽 中 断 
输出 到 数据 总 线 上 传 给 CPU 通知 PIC 将 中 断 发 送 过 来 


| 
| 
CPU 接收 到 中 断 回 量 后 将 EIP、 CPU 从 IDT 中 忒 取 对 应 中 上 断 向 量 | ”软件 
ESP 等 寄存 器 压 栈 保存 的 中 断 服 务 例 程 并 进行 幸 用 阶段 “| 

| 

| 


图 7-4 中 断 处 理 过 程 
接 下 来 介绍 中 断 的 软件 处 理 环 节 。 


Oy 
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7.1.2 中 断 的 软件 处 理 机 制 


要 处 理 中 断 ,必须 有 操作 系统 软件 的 配合 。 其 实 PICAAPIC 中 输出 的 这 些 中 断 信号 的 处 
理 过 程 是 相似 的 ,但 是 每 种 信号 对 应 的 软件 处 理 过 程 肯定 是 不 一 样 的 ,否则 只 定义 一 种 信号 
就 行 了 ,因此 这 些 从 引 肢 输入 的 中 断 信号 经 过 CPU 翻译 后 就 变 成 了 “ 中断 回 量 ” ,其 代表 了 
东信 和 号 在 IDT( 中 断 摘 述 符 表 ) 中 对 应 的 ISR( Interrupt Service Routine, 中断 服务 例 程 ) 的 下 
标 。 当 然 ,这 些 硬件 中 断 信号 (或 者 叫 中 断 向 量 ) 只 是 在 IDT 中 映射 了 一 部 分 表 项 ,而 包括 一 
些 软件 中 断 ( 例 如 目 陷 int 0x2E 、 断 扣 int 0x03 ) 等 也 要 在 IDT 中 占用 一 部 分 中 断 问 量 。 
Windows 在 局 动 的 时 候 对 PIC/APIC 进行 设置 ,包括 PIC/APIC 芯片 的 工作 模式 IRQ 与 IDT 
的 映射 关系 等 都 是 在 这 一 阶段 完成 的 。 

IRQ 与 IDT 的 映射 过 程 在 Windows 中 被 称 为 中 断 服 务 例 程 的 连接” ,这 是 系统 初始 化 的 
重要 步骤 。 在 Windows 中 有 个 表示 中 断 对 象 的 数据 绪 构 KINTERRUPT ,一 个 KINTERRUPT 对 
应 看 一 个 CPU。KINTERRUPT 就 是 为 中 断 连 接 服务 的 ,其 具体 域 如 下 所 示 : 


typedef struct KINTERRUPT I 
CSHORT Type; 
CSHORT Size: 


LIST ENTRY InterruptListEntry; // 用 于 挂 人 不 同 中 断 向 量 的 中 断 列表 

PKSERVICE ROUTINE ServiceRoutine; / /中 断 服务 例 程 ,一 般 指 向 KiInterruptDispatch 
PVOID ServiceContext; / /中 断 服务 例 程 的 参数 

KSPIN LOCK SpinLock; // 用 于 同步 的 自 旋 锁 


ULONG TickCount; 
PKSPIN LOCK ActualLock; 


PVOID DispatchAddress;} / /中 间 的 Dispatch ISR 的 函数 地 址 
ULONG Vector; / /中断 向 量 号 
KIRQL Iragl; /7ISR 对 应 的 中 断 优先 级 


KIRQL SynchronizelIrgl; 
BOOLEAN FloatingSsave; 


BOOLEAN Connected; // 本 中 断 对 象 是 否 已 经 被 连接 到 IDT 中 

CHAR Number; / /要 关联 到 哪个 cPU 上 

UCHAR ShareVector:; 

KINTERRUPT MODE Mode; / /中 断 模式 :Latched ( 电 平 触发 ) , LevelSensitive ( 边 
/7/ 沿 触发 ) 


ULONG ServiceCount; 

ULONG DispatchCount; 

ULONG DispatchCode[106]; / /中 断 序言 代码 
} KINTERRUPT, * PKINTERRUPT}; 


这 里 要 强调 的 是 ,如 果 是 单 CPU 或 者 是 多 处 理 需 体系 的 第 一 个 CPU , 则 对 应 的 数据 结 
构 是 IO_INTERRUPT, 它 内 册 一 个 KINTERRUPT 结构 ,因此 本 质 上 系统 中 首 个 CPU 也 是 与 
KINTERRUPT 对 应 的 。 当 然 ,除了 首 个 CPU 的 KINTERRUPT 结构 ,IO_INTERRUPT 还 包括 
了 其 他 CPU 对 应 的 KINTERRUPT 结构 的 指针 数组 (单个 CPU 的 系统 中 该 数组 长 度 为 0)。 
另外, “一 个 KINTERRUPT 对 应 着 一 个 CPU” 这 一 说 法 也 不 是 很 准确 ,CPU 与 IDT 的 确 是 一 
对 应 的 , 每 个 IDTEntry 也 对 应 一 个 中 断 癌 量 ,但 一 个 中 断 问 量 却 不 止 对 应 一 个 
KINTERRUPT 结构 (KINTERRUPT 只 能 表示 单个 回 量 的 中 断 对 象 ) , 那 怎 么 办 呢 ? 
KINTERRUPT 中 有 一 个 InterruptListEntry 域 ,这 是 个 LIST_ENTRY 结构 ,用 于 将 代表 同一 个 
中 汤 问 量 的 KINTERRUPT 连接 成 一 个 链表 ,如 图 7 一 $5 中 右 半 部 分 所 示 。 
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KINTERRUPT 
KINTERRUPIT 


_ KINTERRUPI 


| 1D 1 Entry 
IDITEntry 
IDTEntry 


IDTEntry 


目 旋 销 


图 7-S KINTERRUPT 和 IO _INTERRUPT 数据 结构 示意 图 


在 系统 初始 化 时 就 要 对 中 断 数 据 结构 和 机 制 进行 初始 化 。 这 个 过 程 中 针对 每 个 可 以 执 
行 中 断 例 程 的 CPU 进行 两 个 操作 :中断 对 象 KINTERRUPT 的 初始 化 和 中 断 的 连接 。 

前 者 的 主要 工作 是 对 KINTERRUPT 结构 中 的 各 个 域 进 行 赋值 ,值得 注意 的 是 最 后 一 个 
域 DispatchCode, 这 是 个 106 个 双 字 长 度 的 字符 数组 ,用 于 承载 中 断 服 务 例 程 执行 的 序言 部 
分 。 提 到 序言 ,我 们 会 想到 系统 调用 中 从 用 户 态 进 入 内 核 态 时 执行 的 用 于 构造 自 陷 框 架 ,为 一 
些 寄 存 顺 赋值 的 序言 代码 ,这 里 序言 的 作用 与 其 比较 类 似 。 在 初始 化 KINTERRUPT 的 时 候 ， 
会 将 一 段 模板 靖 数 据 贝 到 DispatchCode 内 存 区 域 ,这 个 模板 晴 数 就 是 KiInterruptTemplate ,这 
是 一 段 中 断 执 行 序言 指令 的 机 器 码 。 除 了 拷贝 这 一 段 代 码 , 还 要 将 一 个 4 字 节 的 双 字 
( Dword ) 符 换 为 对 应 KINTERRUPT 的 地 址 ,即将 图 7 -6 中 的 0 的 位 置 (黑体 ) 赋值 为 对 应 
KINTERRUPT 的 地 址 ,并 使 EDI 寄存 需 指 向 该 地 址 。 


2. 符 损 


Kilnterrupt Template : 


Vector KilnterruptTemplate2ndDispatch: 
| 1. 拷贝 move edi, 
| | Kilnterrupt TemplateObject: 
Dispatehcode 上 im 


i = ye | 
KINTERRUPT Kilnterrupt TemplateDispateh 


图 7-6 KiInterruptTemplate 代码 成 与 KINTERRUPT 结构 


完成 了 上 述 工 作 ,中 断 结 构 的 初始 化 工作 也 就 完成 了 , 接 下 来 要 进行 中 断 回 量 的 连接 ， 
也 就 是 将 其 挂 接 到 目标 CPU 事先 定义 的 中 断 癌 量 号 上 。 系 统 限 数 KeConnectInterrupt 用 玉 
完成 中 断 连 接 其 人 参 是 要 连接 的 KINTERRUPT 结构 指针 。 图 7 -7 是 KeConnectlnterrupt 
的 执行 流程 。 
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判断 KINTERRUPT 是 耕 已 被 术 接 


执行 KiGetVectorDispatch ， 获 取 
当前 CPU 在 Vector 上 的 连接 情况 


i 腕 Vector 已 经 有 挂 搂 的 
四 KINTERRUPT, KINTERRUPT 
该 Vector 下 没有 下 何 希望 共享 中 断 向 量 
连接 的 KINTERRUPT Vector， 已 挂 接 的 


KINTERRUPT 人 允许 共 诗 


周 用 KiConnectVectorTolnterrupt 
将 上 一 个 KINTERRUPT 以 
链接 方式 挂 入 


: 将 当前 KINTERRUPT 挂 入 上 
调用 HalEnableSystemInterrupt 一 人 KINTERRUPT 的 后 面 


7 一 7 KeConnectInterrupt 的 执行 流程 


自 先 要 判断 入 参 KINTERRUPT 是 否 已 经 钻 连 授 。 如 琳 已 经 补 连 接 ,现在 义 要 执行 一 
次 ,这 只 能 说 明 出 错 了 ,这 里 不 具体 讨论 ;如 果 没 有 被 连接 ,那么 故事 还 有 下 文 :获取 当前 
CPU 在 KINTERRUPT 对 应 的 中 断 向 量 Vector 上 的 连接 情况 ,这 是 通过 KiGetVectorDispatch 

KiGetVectorDispatch 通过 获取 中 断 向 量 在 IDT 上 的 ISR 入 口 反 推出 对 应 的 KINTERRUPT 
结构 ,从 而 获取 连接 信息 。 获 取 的 连接 情况 分 为 两 种 : 

> 该 Vector 上 还 没有 任何 连接 的 KINTERRUPT ; 

> 该 Vector 上 已 经 有 了 连接 的 KINTERRUPT ,而 人 人 参 KINTERRUPT 又 想 共 享 这 个 中 断 

回 量 ,并 且 已 经 存在 的 KINTERRUPT 也 人 允许 共享 , 即 我 们 常 说 的 “两 厢 情 愿 ”。 

针对 第 一 种 情况 ,我 们 调用 KiConnectVectorTolInterrupt 以 普通 方式 挂 人 ,并 且 调 用 
HalEnableSystemInterrupt 对 PIC 进行 工作 模式 的 设置 。 

针对 第 二 种 情况 ,我 们 依然 调用 KiConnectVectorToInterrupt ,但 是 以 链接 方式 将 上 一 个 
KINTERRUPT 重新 挂 人 (第 一 次 挂 人 这 个 KINTERRUPT 时 也 没 想到 后 面 会 有 其 他 
KINTERRUPT 与 之 共享 中 断 癌 量 ,因此 首次 是 以 普通 方式 挂 入 )。 之 后 将 当前 入 参 的 这 个 
KINTERRUPT 挂 到 上 一 个 KINTERRUPT 的 后 面 。 

KiConnectVectorlolnterrupt 是 KINTERRUPT 连接 的 实际 操作 者 ， 其 工作 主要 分 为 两 步 , 
我 们 来 看 看 其 具体 流程 ( 如 图 7 一 8 所 示 ) : 


再 用 KiConnectVectorTolInterrupt 


以 普通 方式 挂 入 
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DispatchAddress 
KilnterruptDispateh/ 
KiChainedDispatch 
代码 段 内 容 


DispatchCode 


KINTERRUPT Kilnterrupt Template 


Kilnterrupt Template2nd Dispatceh: 


move edl. | KINTERRUPT 
Kilnterrupt ITemplateOblect: 


lmp | KilnterruptDispatch/KiChamnedDispatch 
Kilnterrupt ITemplate Dispateh: 


7 一 8 KiConnectVectorToInterrupt 对 于 KINTERRUPT 的 操作 


第 一 步 , 完 成 KINTERRUPT 的 最 终 修改 ,关键 之 处 就 是 使 DispatchCode 中 的 长 跳 转 指 癌 
中 断 的 公共 入 口 :KiInterruptDispatch 或 KiChainedDispatch。 在 前 文中 我 们 摘 述 过 ， 
KINTERRUPT 初始 化 的 时 候 在 DispatchCode 中 替换 了 一 个 双 字 ,这 个 双 字 就 是 KINTERRUPT 
的 地 址 ,并 使 EDI 寄存 融 指 回 这 个 地 址 ,现在 又 蔡 换 了 一 个 长 跳 转 的 地 址 ,这 预示 这 个 长 跳 
转 可 能 会 以 EDI 寄存 器 的 内 容 为 参数 (实际 上 EDI 寄存 器 指向 中 断 对 象 KINTERRUPT) 。 
而 DispatchCode 也 是 这 个 中 断 回 量 的 啊 应 程序 人 口 代 码 , 因 此 DispatchCode 理应 作为 IDT 中 
IDTEntry 的 ISR 入 口 指令 。 故 而 接 下 来 的 第 二 步 就 要 对 IDT 进行 操作 和 赋值 。 

第 二 步 ,DispatchCode 的 基 址 被 赋予 IDT 中 对 应 中 断 问 量 Veetor 的 中 断 例 程 地 址 中 , 即 
IDTEntry 的 ISR 位 置 。 

中 断 发 生 后 ,在 便 件 部 分 走 完了 流程 怠 来 到 软件 部 分 (如 图 7-9 所 示 ) ,具体 如 下 : 


HalEndSystemlnterrupt 


| 执行 

3 
InterruptListEntry InterruptListEntry | 
DispatchA ddress DispatchAddress | 

DTEntyo 
炳 发 生 = 一 | 

IDTEntry 1 

0—" 
Vector ,— TDTEnuY3 

= DispatchCode DispatchCode | 
IDTEntry4 i 
IDI KINTERRUPTI KINTERRUPL 执行 | 
| 
| 
| 


KilnterruptDispateh/ 


KiChamedDispateh 
7-9 中 断 处 理 流程 的 软件 部 分 
(1) 首先 会 根据 当前 CPU 运行 状态 保存 现场 。 
> 如 条 处 于 用 户 态 则 要 为 切换 堆栈 做 准备 :从 TSS 获取 新 段 摘 述 符 ,现场 保存 等 ; 
> 如 果 本 来 就 处 于 内 核 态 则 不 需要 考虑 堆栈 切换 的 情况 ,只 需要 保存 现场 就 好 。 
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(2) 然后 根据 中 断 向 量 找到 IDT 中 对 应 的 IDTEntry ,进而 找到 ISR 的 基 址 ,这 个 基 址 自 
然 就 是 目标 Vector 的 KINTERRUPT 的 DispatchCode 基 址 。 
(3) 执行 基 址 中 的 指令 , 像 系 统 调 用 或 线程 切换 一 样 保存 当前 现场 ,最 后 跳 转 到 
KilnterruptDispatch 或 KiChainedDispatch 困 数 。 
需要 注意 的 是 ,最 后 挂 人 目标 Vector 的 KINTERRUPT 的 DispatchCode 会 覆盖 其 前 面 的 
KINTERRUPT 的 DispatchCode, 因此 IDT 中 的 ISR 以 最 后 一 次 挂 人 的 KINTERRUPT. 
DispatchCode 为 准 。 
> 以 普通 方式 挂 入 的 KINTERRUPT 执行 的 是 KiInterruptDispatch ,核心 操作 就 是 调用 传 
人 的 KINTERRUPT 参数 中 的 ServiceRoutine , 而 这 个 ServiceRoutine 的 参数 就 是 EDI 寄 
存 器 中 的 内 容 ( KINTERRUPT 基 址 ) 和 ServiceContext。 
> 以 链接 方式 挂 人 的 KINTERRUPT 执行 的 是 KiChainedDispatch ,其 步骤 稍微 复 休 一 些 : 以 
InterruptListkntry 为 链 ,查找 每 一 个 KINTERRUPT 元 素 ,逐个 执行 它们 的 ServiceRoutine, 
并 且 也 是 以 KINTERRUPT 基 址 和 ServiceContext 为 参数 。 
不 过 KilnterruptDispatch 和 KiChainedDispatch 在 执行 ServiceRoutine 的 前 后 要 分 别 执行 
一 下 硬件 抽象 层 曙 数 HalBeginSystemlnterrupt 和 HalkndSystemlnterrupt: 
> HalBeginSystemInterrupt 的 作用 是 比较 当前 中 断 对 应 的 IRQL 与 当前 CPU 所 处 的 
IRQL ,如 果 大 于 CPU 的 IRQL, 则 表示 来 了 一 个 优先 级 更 高 的 中 断 , 需 要 马上 人 处理 ; 否 
则 ,表示 中 断 的 IRQL 尚 不 足以 撼动 CPU 正在 执行 的 线程 ,所 以 先 将 本 次 中 断 记 录 下 
来 待 日 后 处 理 , 并 且 设 置 PIC 屏蔽 这 一 级 中 断 。 
> HalEndSystemInterrupt 的 作用 是 降低 CPU 的 IRQOL。 因 为 HalEndSystemlInterrupt 一 
定 是 在 ServiceRoutine 之 后 才 执 行 , 而 ServiceRoutine 是 中 汤 的 处 理 限 数 , 在 其 运行 时 
CPU 的 IRQL 自然 会 较 高 ,那么 HalEndSystemInterrupt 在 降低 CPU 的 IRQL 后 也 会 检 
查 一 下 KPCR 中 是 否 有 之 前 缓存 的 中 断 ,并且 在 中 断 的 IRQL 高 于 当前 CPU 的 IRQL 
时 派 遗 这 些 中 断 。 


7.2 延迟 过 程 遇 用 机 制 


中 断 软 件 处 理 流程 中 还 有 两 个 没有 提 及 的 重要 操作 就 是 关中 断 与 开 中 断 。 

在 中 断 人 处 理 流程 中 有 的 步骤 是 不 能 被 打 断 的 ,要 “一 气 呵 成 ”地 完成 ,因此 必须 关中 断 ， 
等 “一 气 呵 成 ”后 再 开 中 断 , 这 期 间 即 使 有 更 高 级 的 中 断 进 来 也 不 允许 打扰 执行 。 但 在 中 断 
请 求 较 多 的 系统 中 ,如 果 关 中 断 时 间 过 入 会 严重 影响 其 他 中 断 的 执行 进而 降低 整个 操作 系 
统 的 响应 效率 ,因此 这 个 “一 气 呵 成 "的 过 程 必须 非常 短 , 只 处 理 非 常 紧急 且 不 得 不 关中 断 才 
能 处 理 的 急迫 任务 , 剩 下 的 不 那么 急迫 的 .可 以 开 中 断 执 行 的 任务 可 以 先 放 一 放 ,“ 将 来 的 事 
情 将 来 再 说 ”。 上 日 然 地 ,这 种 一 紧 一 松 的 操作 就 把 中 断 分 成 了 上 半 段 和 下 半 段 。 

一 般 在 IDT 的 ISR 中 处 理 的 都 是 中 断 的 上 半 段 ,上 半 段 处 理 一 些 紧 急 的 操作 ( 例如 通知 
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数据 到 来 等 ) ,同时 也 要 为 下 半 有 段 的 执行 构造 上 下 文 框架 和 环境 ;而 下 半 上 段 可 以 在 退出 ISR 
后 的 任意 线程 上 下 文中 执行 。 这 种 机 制 引 出 了 延迟 过 程 调用 ( Deferred Procedure Call ,DPC ) 
的 概念 。 


7.2.1 DPC 的 数据 结构 


在 Windows 中 ,每 个 处 理 需 的 KPRCB 有 两 个 DPC 队列 。 每 当 人 处 理 完 ISR 的 时 候 , 处理 
器 的 IRQL 降 到 DISPATCH_LEVEL, 便 会 触发 执行 DPC。 我们 先 来 看 KPRCB 中 与 DPC 有 关 


typedef struct KPRCB 
| 
ULONG DpcTime; 
ULONG DpcTimeCount; 
ULONG DpcTimeLimit; 
KDPC DATA DpcData[2]; / /DPC 有 两 个 队列 :常规 化 DPC 队列 和 线程 化 DPC 队列 
PVOID Dpcstack; / /DPC 为 防止 堆栈 溢出 ,不 能 使 用 内 核 堆栈 而 需要 使 用 自己 的 堆栈 
LONG MaximumDpcQueueDepth; 
ULONG DPCRedquestRate 
ULONG MinimumDpcRates; 
UCHAR DpclInterruptRequested; 
UCHAR DpcThreadRequested;} 
UCHAR DpcRoutineActive; 
UCHAR DpcThreadActive; 
ULONG DpcLastCount; 
KEVENT DpcEvent; 
UCHAR ThreadDpcEnable; 
LONG DpcSsetEventRequest; 
KDPC Cal1Dpc:; 
} KPRCB, * PRERPRCB; 


其 中 ,DpcData 是 个 KDPC_DATA 结构 体 , 与 APC_STATE 非常 类 似 , 队 列 链表 藉 在 结构 
体内 部 ,其 具体 形态 是 下 面 这 样 的 : 


typedef struct KDPC DATA 
{ 
LIST ENTRY DpcListHead; /1DPC 队列 
ULONG DpcLock; 
LONG DpcQueueDepth; 
ULONG DpcCounty 
} KDPC DATA, 本 上 有 DEL DATA: 


KDPC_DATA 中 的 DpcListHead 用 来 挂 入 KDPC 数据 结构 ,而 KDPC 对 象 的 结构 如 下 
所 示 : 


typedef struct KDPC { 


UCHAR Type; / /表示 DPC 是 常规 化 的 还 是 线程 化 的 , DpcObject 或 ThreadedDpcObject 
UCHAR Importance; / /紧急 程度 , 以 决定 是 挂 在 队 头 还 是 队 尾 

USHORT Number; / /希望 挂 入 的 CPUID 

LIST ENTRY DpcListEntry; /1 用 于 挂 入 KDPC DATA 的 List 中 

PKDEFERRED ROUTINE DeferredRoutine;  //DPC 的 具体 执行 函数 指针 

PVOID DeferredContext， // 执 行 DPC 函数 时 的 上 下 文 环境 

PVOID SystemArgumentl1; / /执行 DPC 函数 时 的 参数 

PVOID SystemArgument2; / /执行 DEC 函数 时 的 参数 

Volatile PVOID DpcData; // 指 向 所 挂 和 的 KDPC_DATA 


} KDPC, * PKDPC, * PRKDPL; 
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7.2.2 DPC 的 入 队 流程 


综 上 所 述 , 每 个 CPU 对 应 的 KPRCB 中 含有 一 个 KDPC_DATA 结构 体 , 每 个 KDPC _ 
DATA 结构 体 包 含 两 个 DPC 队列 (常规 DPC 队列 和 线程 DPC 队列 ) ,KDPC 对 象 被 挂 人 这 两 
个 队列 中 的 一 个 。KDPC 的 初始 化 是 通过 系统 图 数 KelInitializeDpc/ KelInitializeThreadedDpc 
实现 的 (前 者 用 来 初始 化 常规 化 DPC ,后 者 用 来 初始 化 线程 化 DPC ) , 而 挂 人 DPC 队列 则 统 
一 由 KeImsertOueueDpe 实现 。 

如 图 7 一 10 所 示 ,KeInsertOueueDpc 没有 什么 门槛 ,其 中 HalRequestSoftwareInterrupt 
(DISPATCH _LEVEL) 就 是 扫描 DPC 队列 的 函数 ,只 是 将 KPCR 的 扩展 结构 KPRCB 中 的 
HalReserved[ HAL_DPC_REQUEST] 域 设置 为 true, 并 不 真正 执行 DPC 阻 数 ,DPC 函数 的 执行 
是 等 到 中 断 优先 级 下 降 到 DPC_LEVEL 的 时 候 才 进行 的 。 


中 断 优 先 级 提升 : 
KeRaiselrql 


根据 CPUID 获 取 KPRCB 结 构 


根据 DPC 的 类 型 是 常规 化 DPC 
还 是 线程 化 DPC 获取 
KDPC DATA 指 针 


判断 DPC 的 重要 程度 
重要 级 别 非 重 要 级 别 


插入 KDPC DATA 队 列 的 头 部 | | 插入 KDPC DATA 队列 的 尾部 


判断 插入 的 DPC 所 在 的 
CPU 是 否 为 当前 CPU 


请 求 扫 接 DPC 愉 列 : 发 送 处 理 顺 间 中 晰 IPI 信 和 号: 
HalRequestSottwarelnterrupt(DISPATCH LEVEL) KilpiSendRequest(lPl DPC) 


中 晰 优先 级 还 原 . KeLowerlrql 


图 7 一 10 ”KeInsertQueueDpe 的 执行 过 程 


为 外 ,在 DPC 执行 过 程 中 是 不 能 发 生 线 程 切换 的 ,Windows 通过 提升 IRQL 的 机 制 保 证 
了 这 一 点 :线程 切换 时 CPU 的 IRQL 是 DISPATCH_LEVEL, DPC 执行 时 也 是 这 个 级 别 ,因为 
是 同 级 ,因而 线程 切换 无 法 剥夺 DPC 的 执行 权 。 
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在 系统 初始 化 ( KelInitSystem ) 的 时 候 , 如 果 线 程 化 DPC 是 启用 状态 的 , 则 除了 执行 DPC 
表 头 初始 化 和 设置 深度 初 值 之 外 ,还 执行 以 下 操作 

> 初始 化 KPRCB 中 的 DpcEvent 为 无 信号 状态 的 同步 事件 ; 

> 为 每 个 CPU 内 核 创建 一 个 DPC 线程 ,以 便于 执行 DPC 。 

线程 化 DPC 是 一 种 特殊 的 DPC ,用 于 Windows Vista 及 之 后 的 版 本 ,我 们 在 此 先 搁置 不 
谈 , 因 此 本 节 描 述 的 DPC 都 是 常规 DPC。 


7.2.3 DPC 的 执行 流程 


DPC 是 IRQL 从 DISPATCH_LEVEL 以 上 降 到 DISPATCH_LEVEL 或 以 下 级 别 的 时 候 才 执 
行 的 ,我 们 以 KeLowerlrql 为 例 来 讲解 DPC 的 执行 流程 。KeLowerlrql 的 执行 过 程 如 图 7 一 11 
所 示 。 


高 于 DISPATCH LEVEL 


关中 断 一 一 一 

阶段 KeLowerIrql 执 行 过 程 

DISPAICH LEVEL 
列 听 KPRCB 的 HalReserved[HAL DPC REQUEST] 是 否 关 
无 任何 DPC 
执行 CheckQuantum 

开 中 肠 ee 0 

阶段 降低 的 方 癌 执行 KiRetireDpcList， 箱 环 DPC 列表 : 开 中 有 时 

1. 处 理 定时 器 中 上 断 调用 


_enable /于 中断 

执行 KiTimerExpiration 

_disable /天 中断 

2. 处 理 KDPC DATA 队 列 中 的 每 个 DPC 
_enable WW 下 中断 


执行 KiSwapContextInternal 切 换 线 程 


执行 DPC.DeferredRoutine 
_disable /关中 图 


APC LEVEL 


PASSIVE LEVEL 


7 一 11 KeLowerIrql 的 执行 过 程 


在 KeLowerIrql 的 执行 过 程 中 ,处 理 器 的 IRQL 从 处 理 中 断 时 的 DISPATCH_LEVEL 级 别 
以 上 降 到 PASSIVE_LEVEL ,中 间 经 历 了 DPC 遍历 执行 线程 切换 、APC 投递 执行 和 普通 线 


二 


加 es 


程 运行 等 IRQL 不 同 的 几 个 阶段 。 其 中 在 DISPATCH_LEVEL 级 别 上 要 执行 以 下 操作 : 
(1) 判断 处 理 器 KPRCB 中 的 HalReserved[ HAL_DPC_REQOUEST] 是 否 为 真 ,为 真 则 表 
示 PRCB 中 有 DPC 等 待 执行 ;为 假 则 表示 没有 DPC 等 待 ,此 时 IRQL 可 以 降 到 APC_LEVEL。 
(2) 如 果 为 真 , 则 执行 KiDispatchInterrupt 一 一 预备 执行 DPC。 首先 关中 断 ,防止 高 级 别 
中 汤 打 扰 目 前 的 指令 执行 ,然后 判断 DPC 的 井深 ( DPC 数量 ) 和 定时 天 中断 DPC 是 否 不 为 0 
或 已 存在 ,如 果 两 个 条 件 都 满足 , 则 : 
> 从 内 核 堆栈 切换 到 DPC 堆栈 。 当 前 线程 运行 在 内 核 态 , 其 堆栈 自然 是 内 核 堆 栈 ,但 是 
内 核 堆 栈 是 比较 小 的 ,为 了 防止 堆栈 灌 出 ,DPC 有 专门 的 堆栈 ,此 时 需要 将 内 核 堆栈 
的 指针 寄存 于 DPC 专 有 堆栈 中 ; 
> 执行 KiRetireDpcList , 即 循环 执行 列表 中 的 DPC ,包括 定时 天 中 断 DPC 和 普通 DPC ， 
注意 每 次 执行 DPC 时 都 要 先 开 中 断 ,执行 完 再 关中 类 ; 
> 执行 完全 部 DPC 后 从 DPC 专 有 堆栈 切换 回 内 核 堆栈 。 
(3) 执行 CheckQuantum . 开 中 靳 ,执行 线程 切换 。 
其 实 ,DPC 的 执行 本 身 没 有 什么 技术 门槛 ,只 是 它 是 在 IRQL 下降 的 过 程 中 ,具体 来 说 是 
从 DISPATCH_LEVEL 降 到 APC_LEVEL 的 过 程 中 发 生 的 ,中 间 要 经 历 堆 栈 切换 和 开关 中 断 ， 
最 后 还 要 执行 线程 切换 ,这 一 系列 操作 执行 下 来 承 显 得 比较 膝 烦 了 。 


本 章 小 结 


系统 中 断 是 包括 Windows 在 内 的 操作 系统 处 理 外 围 设 备 信号 的 机 制 。 例 如 我 们 稼 说 的 
“向 击 键盘 或 点 击 鼠 标 时 系统 会 发 生 什 么 "这 类 问题 都 是 由 中 断 机 制 和 视窗 型 报 文 机 制 来 诠 
释 的 。 本 童 诈 先 讲述 中 断 的 便 件 和 软件 处 理 机 制 ,这 分 别 对 应 了 设备 中 断 发 生 后 从 硬件 转 
移 到 软件 啊 应 的 过 程 。 

但 是 ,中 断 的 处 理 往 往 是 耗 时 耗 力 的 ,如 采 采 用 同步 的 方式 处 理 很 可 能 造成 系统 的 卡 顿 
和 其 他 中 断 信号 的 丢失 ,因此 将 中 断 的 处 理 分 为 前 后 两 段 , 即 前 半 段 同步 式 处理 , 后 半 段 延 
人 迟 式 异步 处 理 便 成 了 一 个 可 行 的 选择 。Windows 系统 支持 这 种 分 段 ,并 将 后 半 段 命名 为 延 
述 过 程 调 用 ( DPC)。 

} 革 也 讲述 了 DPC 相关 的 数据 结构 后 半 段 任务 的 封 禄 和 入 队 流 程 以 及 DPC 的 执行 过 

程 。 这 里 要 注意 的 是 DPC 拥有 目 己 的 堆栈 而 不 占用 系统 本 号 定义 的 堆栈 。 
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报 文 。 在 系统 中 我 们 点 击 鼠 标 或 敲 击 键盘 都 会 触发 视窗 型 报 文 ,因为 这 些 动 作 的 解释 执行 必 
然 与 操作 系统 蝎 面 某 个 区 域 ( 视 窗 ) 有关。 比如 ,我 们 用 鼠标 点 击 MFC ( Microsoft Foundation 
Class ,微软 基础 类 ) 程 序 的 某 个 Button , 当 鼠 标 触 发 < 按 下 ”动作 的 时 候 , 鼠标 驱动 程序 将 " 按 下 ” 
澡 作 翻译 成 对 应 的 报 文 ,这 个 报 文 携 市 “ 按 下 ”事件 发 生 时 鼠标 光标 在 操作 系统 果 面 上 的 坐标 
等 信息 。 内 核 收 到 这 个 报 文 后 寻找 光标 的 坐标 对 应 的 视窗 ( Button 所 在 的 视窗 ) ,并 将 该 报 文 
“投递 ”到 这 个 视窗 对 应 的 线程 ,该 线程 处 理 “ 按 下 Button” 报 文 事件 ,将 该 报 文 翻译 成 MFC 可 
以 识别 的 BN_CLICKED 消息 ,继而 触发 MFC 对 应 的 事件 处 理 , 调 用 注册 的 处 理 胃 数 。 在 整个 
过 程 中 ,视窗 型 报 文 驱动 看 设备 驱动 模块 .内核 .应 用 进程 的 线程 和 视窗 之 间 的 协作 。 
点 送 型 报 文 队列 
张贴 型 报 文 队列 
_ 通 知 型 报 文 队列 _ 
报 文 队列 的 七 种 类型 gl 硕 件 报 文 队列 
i 定时 器 报 交 队列 
1 待 回复 报 文 队列 
视窗 型 报 文 的 数据 结构 日 点 送 型 报 文 的 暂 存 队列 
视窗 线程 与 GUI 系统 调用 表 
1 视窗 对 银 结 构 体 WINDOW _OBJECT 
| 完 窗 对 象 与 些 程 、 视 窗 队 列 的 关系 
整体 : 视窗 报 文 的 收 点 处 理 流程 一 一 一 个 循环 的 逻辑 流程 
故 送 型 报 文 的 接收 


收 后 可 句 要 淘 有 用户 赤 空 | 间 99 毅 府 从 理 匡 烧 


ge 针对 发 送 型 报 文 的 流程 
发 送 9 
针对 张贴 型 报 文 的 流程 


从 内 核 态 回调 到 用 户 态 是 一 种 常态 ， 视 离 型 报 文 必须 能 够 处 理 这 种 
回调 


数据 结构 : 回调 函数 表 


内 核 态 堆栈 伪造 新 的 自 陷 框架 
用 户 态 堆栈 构造 调用 框架 
人， 回调 函数 执行 的 过 程 以 及 堆栈 的 消长 变化 
挂钩 对 于 用 户 志 空 间 回 调 的 影响 
键盘 事件 处 理 流程 
鼠标 事件 处 理 流程 


图 8-1 本 章 提纲 


各 | 
用 户 态 空间 回调 机 制 9 回调 之 前 对 于 堆栈 的 修改 8 


实例 : 键盘 与 鼠标 报 文 的 响应 机 制 6 
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应 用 软件 开发 协议 栈 CN 


本 章 将 按照 图 8 -1 所 示 的 提纲 进行 介绍 ,详细 阐述 视窗 型 报 文 的 生产 和 消费 过 程 ,但 
在 此 之 前 要 先 介绍 一 些 基础 知识 和 技术 。 


8.1 视窗 型 报 文 的 数据 结构 


在 Windows 中 ,视窗 型 应 用 程序 的 执行 就 是 一 个 不 断 获 取 和 处 理 报 文 的 循环 过 程 ,其 基 
本 的 处理 框架 如 图 8 一 2 所 示 。 这 个 循环 直到 收 到 WM_QUIT 消息 才 会 结束 ,但 在 收 到 WM_ 
QUIT 之 前 ,如 果 报 文 队列 为 空 则 会 阻塞 。 而 报 文 处 理 的 本 质 就 是 调用 视窗 关联 的 函数 ,就 
拿 前 面 的 例子 来 说 ,最 终 还 是 要 调用 MFC 为 单 击 按钮 注册 的 OnButton 函数 。 


Get\Message 


TranslateMessage 


DispatchMessage 


循环 执行 


图 8-2 获取 报 文 和 处 理 报 文 的 循环 逻辑 

在 线程 的 KTHREAD 结构 中 ,ServiceTable 域 指 加 系统 服务 摘 述 符 表 。 这 个 描述 符 表 或 
者 是 原生 的 KeServiceDescriptorTable ,或 者 是 扩展 的 KeServiceDescriptorTableShadow 。 前 文 讲 
过 ,前 者 只 包含 索引 在 0x1000 以 下 的 系统 调用 ; 而 后 者 则 包含 了 索引 在 0x1000 以 下 和 
0x1000 以 上 的 系统 调用 。Windows 将 系统 调用 以 0x1000 为 界 分 为 了 两 部 分 :原生 的 系统 调 
用 和 扩展 的 系统 调用 。 所 谓 原 生 的 系统 调用 就 是 不 涉及 视窗 绘 岁 操作 的 调用 , 如 
NtReadFile NtWriteFile 等 ,如 图 8 一 3 所 示 ; 而 扩展 的 系统 调用 是 涉及 视窗 绘图 操作 的 GUI 
调用 ,它们 位 于 win32k. SVS 模块 内 ,如 NtUserGetDC 等 ,如 图 8 一 4 所 示 。 


Ji 


| 二 四 六 呈 吕 条 
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国 数 名 称 


NtMapUserPhysicalpagess... 


NtWaitForSingleObject 


NtReleaseSemaphore 
NtReplyWaitReceivePort 
NtReplyPort 
NtSetInformationThread 
NtSetEvent 

NtClose 

NtQueryObject 
NtQueryIinformationFile 
MEDpenKey 


NtFnimarateVallaK ev 


Oxfffff80004a68810 
0xfffffe00048foae0 
0xfffffe00046a7d40 
0xfffff800048fd210 
Oxfffff8000495bdd0 


Oxfffff800049160d0 
0xfffffa00048ee070 
Oxfffffa0004a3f4c0 
0xfffffa000490c86C 
0xfffffa00048f9020 
0xfffffa00049111d8 
Oxfffff80004ac8590 
Oxfffff800048eb8a8 


MffaNnNnNanfi 7an 
Ul 


8 -3 原生 的 系统 调用 描述 符 表 


是 百 被 挂 构 ”原始 国 数 地 址 


当前 鲍 数 所 在 的 模块 

C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 


C:\Windows\system32\ntoskml.exe 


C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
Ci\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 


rNindnwalevetema?intnaml eve 
k 


二 


本 


国 数 名 称 
NtUserInternalGetWindo... 
NtUserGetWindowDC 
NtGdiD3dDrawprimitives2 
NtGdiInvertRgn 
NtGdiGetRagnBox 
NtGdiGetAndSetDCDword 
NtGdiMaskB 此 
NtGdiGetWidthTable 


NtUserScrollDC 
NtUserGetObjectInformati... 
NtGdicreateBitmap 
NtUserFindWindowEx 
NtGdiPolyPatBtt 
NtUserunhookWindowshH... 
NtGdiGetNearestColor 


当前 图 数 地 址 
0Dxfffff96000191bc4 
0xfffff96000191438 
Oxfffff9600024aa20 
Oxfffff96000271a90 
Oxfffff960002bc3b0 
Oxfffff960002bfba4 
0xfffff960002baf30 
0Dxfffff9600010dea8g 
0xfffff96000125425C 
0xfffff9600016c9c0 
0xfffff9600016a260 
0xfffff96000193e20 
0xfffff960002b65 介 
0Dxfffff96000190bb8 
Oxfffffr9600013016c 


是 百 被 挂 移 


原始 国 数 地 址 

0xfffff96000191bc4 
0xfffff96000191438 
0xfffff96000243a20 
0xfffff960002713a90 
0xfffff960002bc3b0 
0xfffff960002bfba4 
0xfffff960002baf30 
0xfffff9600010dea8 
0xfffff9600012542<c 
0xfffff9600016c9c0 
0xfffff9600016a260 
0xfffff96000193e20 


0Oxfffff9600013016C 
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当前 轿 数 所 在 的 模块 
C:\Windows\system32\win32k.sys 


C:\Windows\system32\win32k.sys 贺 


C:\Windows\system32\win32k.sys 
C:\Windows\system32\win32k.sys 
C:\Windows\system32\win32k.sys 
C:\Windows\system32\win32k.sys 
C:\Windows\system32\win32Kk.sys 
C:\Windows\system32\win32Kk.sys 
C:\Windows\system32\win32Kk.sys 
C:\Windows\system32\win32k.sys 
C:\Windows\system32\win32Kk.sys 
C:\Windows\system32\win32Kk.sys 
C:\Windows\system32\win32Kk.sys 
C\Windows\system32\win32k.sys 
C:\Windows\system32\win32k.sys 


Dxfffff960002bdb9c 
nvfffffoannn2hdanr 


0xfffff960002bdb9c 
nvfffffoannn2hrdanr 


C:\Windows\system32\win32Kk.sys 
FNindmvalevetem3a7 win37k ave 
k 


8 一 4 ”扩展 的 系统 调用 描述 符 表 


在 线程 初始 化 的 时 候 , KTHREAD 的 ServiceTable 域 默 认 指 问 KeService DescriptorTable 
这 个 原生 表 , 该 线程 也 是 个 常规 非 GUI 线程。 但 当 线 程 需要 调用 0x1000 以 上 索引 的 系统 服 
务 的 时 候 ( 视窗 操作 ) ,ServiceTable 域 要 重 定 问 到 KeServiceDescriptorTableShadow , 且 该 线程 
要 转变 成 GUI 线程 ,哪怕 线程 的 生命 周期 中 只 调用 视窗 操作 一 次 ,这 个 转换 也 是 必须 进行 且 
不 可 逆 的 ,而 这 个 转换 操作 是 由 内 核 限 数 PsConvertToGuiThread 完成 的 。 

既然 KeServiceDescriptorTableShadow 包括 了 原生 的 和 GUI 的 系统 调用 , 那 让 ServiceTable 
域 在 初始 化 的 时 候 就 一 步 到 位 地 指 回 它 就 得 了 ,为 何 一 开始 还 要 指 癌 KeServiceDescriptorTable 
呢 ? 这 其 实 是 基于 节省 系统 开销 的 目的 来 考虑 的 。KeServiceDescriptorTableShadow 表 中 毕 
况 要 使 用 到 win32k. sys 模块 中 的 函数 ,虽然 这 个 模块 处 于 系统 地 址 空间 ,调用 的 效率 也 很 
高 ,但 毕竟 要 加 载 包 括 win32k. sys 在 内 的 不 少 系统 模块 ,在 以 前 内 存 还 比较 昂贵 的 时 候 , 能 
省 一 点 内 存 就 意味 着 更 高 的 运行 效率 (可 以 跑 更 多 的 进程 ) ,因此 Windows 连 这 点 “博爱 之 
心 ” 也 不 想 给 ,直接 格 杀 勿 论 地 使 ServiceTable 指 问 原生 表 , 只 有 在 触发 了 GUI 调用 这 条 “ 红 
线 ” 的 时 候 才 会 允许 win32k. sys 的 加 载 ,不 过 这 也 是 “ 穷 家 富 路 ”的 不 得 已 而 为 之 。 

当然 ,PsConvertToGuiThread 不 仅仅 转换 了 ServiceTable 的 指 癌 ,也 扩充 了 内 核 态 堆栈 的 
大 小 。 因 为 视窗 线程 所 用 的 资源 一 般 比 较 多 , 散 套 也 比较 深 , 营 规 大 小 的 内 核 态 堆栈 往往 不 
是 以 支持 视窗 调用 ,为 了 避免 堆栈 洲 出 ,扩充 堆栈 大 小 也 是 必要 的 。 

同时 ,PsConvertToGuiThread 也 创建 了 线程 所 在 进程 ( 当前 线程 变 为 视窗 线程 后 ,所 在 进 
程 也 会 变 为 视窗 进程 ) 的 W32PROCESS 结构 和 当前 线程 自己 的 W32THREAD 结构 (对 这 两 
个 结构 前 文 有 过 描述 ,不 再 葡 述 )。 在 KTHREAD 结构 (TCB) 中 ,Win32Thread 域 指 向 的 是 一 
个 THREADINFO 结构 ,只 是 THREADINFO 的 第 一 个 域 是 W32THREAD 结构 ,因此 我 们 说 
Win32Thread 域 就 指向 W32THREAD 结构 也 不 太 准 确 ,但 这 个 问题 不 大 ,只 要 能 通过 内 存 的 
偏 移 计算 出 来 就 行 了 。 当 然 在 W32THREAD 之 外 THREADINFO 还 有 其 他 的 域 ,其 中 一 个 是 
MessageQueue 结构 ,这 是 一 个 指 癌 本 线程 报 文 队 列 的 指针 ,而 报 文 队列 的 数据 结构 是 USER_ 
MESSAGE_QUEUE ,这 是 个 对 本 章 内 容 起 到 灵魂 作用 的 数据 结构 ,也 是 个 包含 了 7 种 队列 的 
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数据 结构 ,在 此 我 们 用 图 8 一 5 来 梳理 它们 之 间 的 关系 。 


W32THREAD 


THREADINFO 


SendMessagesL1istHead 


K1HREAD 


Win37 Thread PostedMessasesListHead 


NotifyMessasgesListHead 


HardwareMessagesListHead 
TimerListHead 
DispatchineMessagesHead 


LocalDispatchine VlessasesHead 
{°°’T1K“°-x 


图 8-5 THREADINFO 与 USER_MESSAGE_QUEUE 的 结构 关系 


USER_MESSAGE_QUEUE 数据 结构 所 承载 的 7 种 队列 承载 的 内 容 如 下 所 示 , 下 一 小 节 
会 有 更 具体 的 描述 . 
> SendMessagesListHead :发 送 型 报 文 队 列 , 用 于 报 文 接 收 线 程 。 
> PostedMessagesListHead :张贴 型 报 文 队列 ,用 于 报 文 接 收 线 程 。 
> NotifyMessagesListHead :通知 型 报 文 队列 ,用 于 报 文 接收 线程 。 
> HardwareMessagesListHead :来 日 便 件 设备 ( 鼠标 、 键 盘 等 ) 的 报 文 队列 ,用 于 报 文 接 
收 线程 。 
> TimerListHead :定时 需 报 文 队 列 ,用 于 报 文 接收 线程 。 
> DispatchingMessagesHead : 发 送 但 尚未 等 到 回复 的 报 文 队列 ,用 于 报 文 发 送 线程 。 
> LocalDispatchingMessagesHead : 发 送 型 报 文 和 暂 存 队列 ,用 于 报 文 接收 线程 ,在 将 
SendMessagesListHead 中 的 报 文摘 下 时 先 将 其 暂 存 在 该 队列 并 对 发 送 线 程 做 出 回应 。 
WINDOW_OBJECT 作为 视窗 对 象 结构 体 ,其 第 三 个 域 指 加 THREADINFO 数据 结构 ,而 
THREADINFO 结构 中 又 包含 了 USER_MESSAGE_QUEUE ,因此 从 视窗 对 象 可 以 关联 到 具体 
的 报 文 队列 。 一 个 线程 只 能 有 一 个 报 文 队 列 , 但 是 一 个 线程 却 可 以 有 多 个 视窗 ,例如 MFC 
进程 中 的 MAIN_FRAME 和 BUTTON 就 是 两 个 视窗 ,但 显然 它们 要 在 一 个 线程 中 运行 。 这 里 
要 注意 ,视窗 的 句柄 是 全 局 句柄 而 非 进 程 内 句柄 。WINDOW_OBJECT 数据 结构 如 下 有 所 示 : 


typedef struct WINDOW OBJECT 


{ 
THRDESKHEAD head.; 


PWND Wnad ; /7 视窗 句柄 
PTHREADINEFO pti; /7 所 属 线程 

HMENU SystemMenu; // 左 上 角 的 系统 菜单 
HWND hself; /7 窗口 句柄 是 内 核 全 局 的 


ULONG state; 
HANDLE hrgnUpdate,; 
HANDLE hranClip; 


/ /当前 无 效 区 域 ( 指 更 新 区 域 ) 的 句柄 
// 前 裁 区 域 的 句柄 


struct WINDOW OBJECT * spwndChild; ”// 第 一 个 子 窗口 

struct WINDOW OBJECT * spwndNext; / /下 一 个 兄弟 窗口 

struct WINDOW OBJECT * spwndPrev; // 上 一 个 兄弟 窗口 

struct WINDOW OBJECT* spwndParent;  // 父 窗口 

struct WINDOW OBJECT* spwndOwner;  ”// 拥 有 者 窗口 与 父 窗口 是 两 码 事 
PSBINFOEX psSBInfo; / /滚动 条 信息 

LIST ENTRY ThreadListEntry; // 用 来 挂 人 线程 的 窗口 链表 


} WINDOW OBJECT; 
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图 8 -6 进一步 曾 释 了 视窗 对 象 与 线程 . 报 文 队列 之 间 的 关系 ,同时 也 可 以 看 出 一 个 线 
程 可 以 有 多 个 视窗 ,每 个 窗口 也 都 有 一 个 指针 指 回 所 属 线程 的 THREADINFO 结构 ,而 
THREADINFO 则 指向 线程 的 视窗 型 报 文 队列 。 由 此 我 们 也 可 以 推断 出 视窗 对 象 不 下 接 关 
联 视 窗 型 报 文 队列 , 报 文 队 列 只 能 跟 线程 天 联 。 接 收 咽 线程 从 报 文 队列 中 “挖掘 ” 报 文 ,再 根 
据 报 文 的 窗口 句柄 定位 到 所 属 的 视窗 ,进而 调用 视窗 关联 的 困 数 。 


KTHREAD THREADINFO I 
Win32Thread : ee 


PostedMessasesListHead 
NotifyVlessagesListHead 
HardwareMessagesListHead 


TimerListHead 
DispatchingMessagesHead 


LocalDispatchineNessagesHead 
ee 


WINDOW OBJECTI| IWINDOW OBJECT WINDOW _ OBJECT3 


图 8 -6 视窗 对 象 与 线程 . 报 文 队列 的 关系 
明白 了 视窗 和 报 文 的 关系 ,我 们 接 下 来 看 看 视窗 型 报 文 的 接收 与 发 送 。 


8.2 视窗 型 报 文 的 接收 与 发 送 


我 们 在 前 文 介绍 过 ,视窗 型 报 文 的 执行 是 一 个 循环 ,以 GetMessage 为 触发 和 循环 条 件 ， 
以 TranslateMessage 和 DispatchMessage 为 执行 步骤 。 其 实 TranslateMessage 的 主要 作用 就 是 


处 理 键盘 的 扫 摘 人 码 ,因此 视窗 型 报 文 的 执行 本 质 上 还 是 GetMessage 和 DispatchMessage 的 循 
环 执 行 。 


GetMessage 的 调用 核心 是 NtUserGetMessage ,这 是 一 个 win32k. sys 模块 中 的 扩展 系统 调 
用 ,也 是 视窗 型 报 文 执行 的 核心 步骤 :不 仅 包 括 了 报 文 的 获取 ,还 包括 了 报 文 的 处 理 与 回复 ， 
以 及 报 文 获 取 超 时 时 的 阻塞 。 在 介绍 NtUserGetMessage 之 前 我 们 先 来 看 看 视窗 型 报 文 的 
队列 。 

前 文 介绍 过 ,视窗 型 报 文 队列 分 为 7 种 类 型 :发 送 型 报 文 队列 .张贴 型 报 文 队列 .通知 型 
报 文 队列 .硬件 报 文 队列 .定时 融 报 文 队 列 、 待 回复 报 文 队列 和 发 送 型 报 文 暂 人 存 队 列 ,那么 对 
应 的 视窗 型 报 文 目 然 也 是 7 种 。 

我 们 首先 来 看 发 送 型 视窗 报 文 及 其 队列 SendMessagesListHead。 挂 人 该 队列 的 报 文 结 
构 为 USER_SENT_MESSAGE ,这 个 数据 结构 包含 以 下 几 个 元 素 : 

> ListEntry :LIST_ENTRY 结构 ,用 于 挂 人 视窗 型 报 文 接收 端 线程 的 SendMessagesListHead 

队列 ,接收 线程 处 理 报 文 时 将 其 从 队列 中 摘 下 和 暂 存 到 LocalDispatchingMessagesHead 
中 ,并 准备 向 发 送 线程 进行 回复 。 
> Msg :视窗 型 报 文 本 身 。 该 元 素 包 括 视 窗 的 句柄 、 报 文 类 型 .时间 标记 、 光 标的 坐标 
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等 ,还 包括 一 个 结构 体 指 针 ,这 个 结构 体 可 以 由 我 们 上 自己 来 定义 和 分 配 内 存 以 用 作 数 
据 扩展 ,只 需 将 内 存 地 址 赋值 到 这 个 指针 即 可 。 不 过 “自己 来 定义 ?并 不 是 说 可 以 自 
由 指定 结构 ,而 是 从 许可 范围 内 选择 结构 体 类 型 ,包括 :WM_CREATE( 应 用 程序 调用 
CreateWindow 或 者 CreateWindowEx 创建 视窗 时 发 送 此 报 文 ) WM_DDE_ACK、WM_ 
DDE_EXECUTE .WM_GETMINMAXINFO .WM_GCETTEXT、WM_SETTEXT 等 ,这 些 类 
型 分 别针 对 不 同类 型 的 报 文 ,因此 其 数据 结构 也 是 相对 固定 的 。 

> CompletionEvent :用 来 唤醒 发 送 妆 的 事件 (Event) 。 

> SenderQueue : 一 个 指向 USER_MESSAGE_QUEUE 结构 的 指针 。USER_MESSAGE_ 
QUEUE 包含 了 7 种 报 文 队 列 ,SenderQueue 指针 指 回 的 是 发 送 端的 报 文 队 列 。 

> DispatchingListEntry: LIST_ ENTRY 结构 ,用 于 挂 信 发送 端的 Dispatching Messages 
Head 队列 ( 待 回复 报 文 缓存 队列 ) ,专门 等 等 接收 线程 对 该 报 文 的 回复 , 收 到 回复 后 


即 摘除 报 文 。 
> CompletionCallback :指向 发 送 端的 Callback 函数 ,以 备 发 送 型 报 文 队 列 要 求 调用 发 
送 端的 回调 函数 。 


8.2.1 视窗 型 报 文 的 接收 


1. 发 送 型 报 文 的 接收 

从 图 8 一 7 可 以 看 出 ,一 个 发 送 型 报 文 “ 一 手 托 两 家 ”: 一 方面 连接 发 送 端 线程 的 发 送 队 
列 , 男 一 方面 连接 接收 端 线程 的 接收 队列 ,而 报 文 的 发 送 与 接收 过 程 与 这 “两 家 ”紧密 相关 。 
因此 ,发送 型 报 文 的 发 送 与 接收 流程 大 致 如 图 8 -8 所 示 。 


报 文 发 送 方 线程 报 文 接收 方 线程 


DispatchineMessageHead SendM\MessageListHead 


DispatchingListEntry ListEntry 


到 8 一 7 发 送 型 报 文 示意 图 


报 文 发 送 方 线程 
DispatchinevlessageHead — SendMessaseListHead 
3. 报 文 转移 到 该 队列 


LocalDlspatchincgIMessapgeHead 


5. 从 该 队列 移 除 报 文 视窗 报 文 


4. 对 该 报 文 做 出 反应 并 从 队列 中 移 除 
图 8-8 发 送 型 报 文 的 发 送 与 接收 流程 


了 
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从 图 8 一 8 中 看 出 , 当 发 送 一 个 发 送 型 报 文 时 : 

(1) 发 送 病 线程 和 完 将 其 挂 人 接收 病 线 程 的 SendMessagesListHead 队列 ,同时 也 挂 人 发 送 
曾 线 程 的 DispatchingMessagesHead 队列 。 

(2) 在 接收 端 线程 的 SendMessagesListHead 队列 中 循环 处 理 每 个 USER_SENT_MESSAGE: 
先 将 其 从 SendMessagesListHead 队 乡 | 移 除 , 转 而 挂 入 LocalDispatchingMessagesHead 队列 暂 存 。 

(3) 对 视 冤 型 报 文 进行 处 理 , 也 就 是 调用 该 报 文 所 关联 视窗 的 处 理 阴 数 WndProc ,这 个 
负数 是 用 户 态 的 ,调用 完成 后 从 LocalDispatchingMessagesHead 队列 中 移 除 该 报 文 。 

(4) 从 发 送 病 线程 的 DispatchingMessagesHead 队列 中 彻底 移 除 该 报 文 。 

这 里 我 们 要 简要 说 明 一 下 。 报 文 是 NtUserGetMessage 从 内 核 中 获取 的 , 因此 传 出 
GetMessage 的 时 候 要 对 上 述 内 核 态 报 文 做 一 定 的 转化 ,转化 为 用 户 态 报 文 ,这 样 应 用 进程 才能 
正常 使 用 。NtUserGetMessage 就 肩负 了 这 样 的 任务 。NtUserGetMessage 的 执行 流程 如 图 8 一 9 
所 示 。 


i 
a 


暂时 无 报 文 著 取 到 了 报 文 


Co lntWaitMlessage FindMseMemory 人 人 
和 =H 


| 找到 了 
暂时 无 报 文 则 等 待 


书展 结构 


为 扩展 结构 分 配 缓冲 区 并 将 
未 找到 | 。 | 扩展 结构 拷贝 到 缓冲 区 
扩展 结构 


循环 执行 


将 整个 报 文 复制 到 用 户 态 空间 的 
出 参 中 ， 即 NtUserGetMessage 
的 出 参 中 


图 8-9 NtUserGetMessage 的 执行 流程 
NtUserGetMessage 的 执行 分 为 以 下 几 个 步骤: 
(1) 首先 根据 窗口 句柄 获取 视窗 对 象 。 这 是 因为 报 文 是 与 视窗 关联 的 ,对 报 文 的 处 理 
就 是 调用 视窗 关联 的 函数 。 
(2) 执行 循环 ,通过 Co_IntPeekMessage 从 SendMessagesListHead 中 获取 一 个 视窗 型 报 文 
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并 从 这 个 队列 中 将 其 摘除 。 注 意 ,这 里 是 处 理发 送 型 报 文 。 

> 如 果 不 能 从 SendMessagesListHead 中 获取 报 文 , 则 调用 Co_IntWaitMessage 等 符 ; 

> 右 能 够 获取 报 文 , 则 探查 一 下 报 文 是 否 还 有 扩展 数据 结构 ,因为 这 个 结构 在 Msg 中 只 

是 一 个 指针 ,还 需要 从 该 指针 所 指 地 址 中 找 贝 出 这 个 扩展 数据 结构 进行 判断 。 

(3) 如 果 上 一 步 中 能 获取 到 报 文 或 者 报 文 所 携带 的 扩展 数据 结构 ,就 将 其 一 并 拷贝 到 
出 参 中 ,这 个 出 参 是 个 用 户 态 空间 的 数据 结构 (由 NtUserGetMessage 所 的 市 的 出 参 ) 。 

(4) 跳 转 到 步 又 (2) 循环 执行 。 

由 此 我 们 也 可 以 看 出 ,NtUserGetMessage 的 核心 就 是 对 Co_IntPeekMessage 的 调用 ,下 面 
我 们 来 展开 Co_IntPeekMessage 的 执行 流程 ,如 图 8 一 10 所 示 。 


sendMvlessageListHead-= 


Co IntPeekMessage 执 行 流 程 


LocalDmspatchineNlessagesHead 


Co Hook CallHooks 
Co IntSendvlessage 


获取 本 线程 的 报 文 队列 Queue 


从 LocalDispatchi ngMessagesHead 


摘除 报 文 
谍 循 环 的 结束 条 件 是 rp 
sendM\essageListHead 一 一 入 环 扰 行 
为 宝 或 遇 到 线程 退出 


Co MsqDispatchOneSentMessage 


循环 中 如 果 松 迎 了 仿 
当前 线程 退出 的 报 文 


如 果 Oueue 的 QuitPosted 标 志 为 


真 ， 则 返回 WM_QUIT 视 窗 型 报 文 唤醒 还 在 等 待 中 的 发 送 方 线程， 


KesetEvent(\Vlessage SCompletionEvent) 


判断 是 否 需 要 向 发 送 方 线程 发 出 回调 报 广 
检查 是 否 有 张贴 型 或 硬件 (Message>CompletionCallback) 
报 立 :Co MsqFindMessage 


无 上 述 基 型 的 报 文 耕 击 要 则 组 建 一 个 Msg， 门 发 大 


方 线程 发 送 ， MsqSendMNotifyIMessage 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| ”车 发 送 方 线程 还 在 等 待 报 文 的 投递 完成 ， 则 从 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
sp i | 
有 上 述 类 型 的 报 文 | 
| 
| 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
发 送 方 线程 的 DispatchingMessageHead 中 摘 障 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 


再 次 循环 执行 
Co MsqgDispatchOneSentvlessage 


有 上 述 类 型 的 报 文 外 理 定时 器 队列 TimerListHead: 
NsdqCretTimerMessage 


;上述 类 型 的 报 文 


处 理 来 目 鼠标 的 报 文 结束 


8 一 10 ”Co_IntPeekMessage 执行 流程 


Co_IntPeekMessage 首先 获取 本 线程 的 报 文 队列 指针 , 即 USER_MESSAGE_QUEUE 结构 
的 指针 ,这 也 从 侧面 印证 了 报 文 队列 是 与 线程 一 对 一 相关 联 的 ,在 一 个 线程 中 可 以 有 多 个 视 
徐 , 报 文 队列 可 以 为 本 线程 中 的 任何 视窗 服务 。 然 后 以 刚刚 获取 的 队列 结构 指针 为 参数 来 
循环 执行 Co_MsqDispatchOneSentMessage。 这 个 图 数 在 队列 中 处 理 所 有 发 送 型 报 文 ,其 具体 
流程 参照 图 8 - 10 中 的 右 半 部 分 : 
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(1) 将 报 文 从 SendMessagesListHead 队列 转移 到 LocalDispatchingMessagesHead 队列 。 

(2) 判断 报 文 是 否 有 挂 钓 : 如 果 有 挂 钧 , 则 调用 挂 钧 接口; 否则 ,调用 Co_ 
IntSendMessage ,该 图 数 调用 视窗 的 关联 困 数 。SendMessagesListHead 队列 是 线程 的 队列 ,该 
因数 负责 从 队列 中 获取 所 有 视窗 报 文 , 并 根据 报 文 的 窗口 句柄 调用 线程 所 辖 窗口 (线程 中 可 
能 有 多 个 视窗 ) 的 WndProc 困 效 。 

(3) 从 LocalDispatchingMessagesHead 队列 中 移 除 该 报 文 。 

(4) 如 宁 发 送 病 线程 也 在 等 待 报 文 的 投递 完成 ,由 于 此 时 实质 上 已 经 完成 了 投递 ,因此 
也 要 从 发 送 线程 的 报 文 队列 DispatchingMessagesHead 中 摘除 该 报 文 。 

(5) 唤醒 发 送 病 线 程 ,由 于 此 刻 发 送 六 线 程 很 可 能 还 在 阻塞 等 得 ,既然 已 经 执行 完了 报 
文 接 收 端 的 工作 ,那么 就 应 该 响 醒 正在 阻 寨 中 的 发 送 端 线程 ,对 报 文 的 CompletionEvent 对 和 象 
进行 激活 。 

(6) 如 果 还 需要 调用 发 送 端的 回调 接口 , 则 对 报 文 的 CompletionCallback 函数 进行 调用 .: 
通过 回 发 送 病 线程 发 送 通知 报 文 ,构造 一 个 报 文 挂 到 发 送 问 线 程 的 报 文 队 列 
NotifyMessagesListHead 中 (通过 调用 MsqSendNotifyMessage 接口 ) 来 完成 函数 调用 ,回调 汕 数 的 
调用 者 是 发 送 端 线程 (此 时 已 经 结束 阻塞 等 待 ) 。 

报 文 投递 的 核心 操作 是 执行 Co_IntSendMessage ,该 图 数 调用 相应 视窗 的 WndProc 困 数 ， 
WndProc 困 数 的 原型 是 下 面 这 样 的 : 


LRESULT CALLBACK WndProc (HWND hWnd,UINT message, WPARAM wParam, LPARAM lParam), 


其 中 ,hWnd 是 要 处 理 窗口 的 句柄 ;message 是 消息 ID ,代表 了 不 同 的 消息 类 型 ;wParam 
的 值 为 按 下 按键 的 虚拟 键 码 ;lParam 则 存储 按键 的 相关 状态 信息 ( 比如 当 鼠 标 消息 发 出 时 ， 
wParam 的 值 为 鼠标 按键 的 信息 ,而 lParam 则 储存 鼠标 的 坐标 ) 。 

宏观 地 看 ,Co_IntSendMessage 的 执行 流程 是 这 样 的 : 

(1) 针对 单个 视窗 的 报 文 , 调 用 目标 视窗 的 WndProc 图 效 Co_IntCallWindowProc ; 

(2) 针对 所 有 视窗 的 报 文 ,首先 获取 晶 面 视窗 ,然后 通过 IntWinListChildren 获取 该 果 面 视 
窗 的 所 有 子 视 窗 ,针对 这 些 子 视窗 分 别 调用 目标 视窗 的 WndProc 孙 数 Co_IntCallWindowProc 。 

这 里 的 Co_IntCallWindowProc 涉及 在 用 户 态 空间 执行 目标 视窗 的 WndProc 困 数 ,其 具体 
机 制 将 在 下 一 市 详细 展开 。 

执行 完 上 述 步 又 后 , Co_ MsqDispatchOneSentMessage 也 就 完成 了 一 次 发 送 型 报 文 的 投 
递 。 接 下 来 判断 队列 中 是 否 有 要 求 线程 结束 的 QUIT 报 文 ,有 则 返回 一 个 WM_QUIT 报 文 并 
且 结 束 执 行 ,没有 则 继续 加 下 执行 并 判断 是 否 有 张贴 型 报 文 或 硬件 报 文 ,没有 的 话 就 再 次 调 
用 Co_MsqDispatchOneSentMessage 处 理 SendMessagesListHead 队列 中 的 发 送 型 报 文 。 

因为 在 上 述 的 处 理 过 程 中 很 可 能 当前 线程 又 接收 了 发 送 型 报 文 ,而 这 类 报 文 往往 要 阻 
窒 发 送 闹 线程 ,因此 必须 优先 执行 ,在 这 里 再 次 循环 调用 Co_MsqDispatchOneSentMessage 也 
是 为 了 尽快 处 理 这 类 报 文 以 免 长 时 间 的 阻 窒 。 最 后 处 理 定时 右 队 列 中 的 报 文 。 
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2. 张贴 型 报 文 的 接收 
张贴 型 报 文 的 处 理 驶 比 发 送 型 报 文 侧 单 多 了 ,发 送 如 线程 只 需要 将 报 文 挂 到 目标 线程 
的 PostedMessagesListHead 队列 ,而 不 需要 等 竺 报 文 的 回复 或 者 被 回调 ,因此 也 束 不 存在 阻塞 
等 待 的 环节 。 同 时 张贴 型 报 文 的 数据 结构 USER_MESSAGE 也 非常 简单 ,除了 Msg 报 文 结构 
外 ,还 包括 了 挂 人 PostedMessagesListHead 的 LIST_ENTRY ,但 是 不 包含 发 送 端 回调 卫 数 等 这 
些 需 要 同步 交互 的 元 对 。 将 两 者 类 比 ,张贴 型 报 文 好 比 异 步 通 信 , 发 送 型 报 文 好 比 同步 
通信 。 
我 们 从 前 文 关 于 发 送 型 报 文 的 一 长 串 描述 可 以 看 出 : 
> GetMessage 的 核心 操作 是 执行 N tUseretMessage ; 
> NtUserGetMessage 的 核心 操作 是 执行 Co_IntPeekMessage( 当 从 发 送 型 报 文 队列 取 不 到 
报 文 时 才 会 执行 Co_IntWaitMessage ) ; 

> Co_IntPeek Message 的 核心 操作 则 是 执行 Co_MsqDispatchOneSentMessage : 这 个 函数 采 
用 Co_IntSendMessage 投递 发 送 型 报 文 , 接 下 来 才 处 理 张 贴 型 报 文 .硬件 报 文 和 定时 
条 报 文 。 

在 前 文 所 述 的 GetMessage 一 DispatchMessage 这 个 最 外 层 循环 中 ,DispatchMessage 的 核心 
操作 是 执行 N tUserDispatchMessage, 这 个 男 数 用 来 调用 应 用 软件 通过 ResglisterClassFx 加 内 核 
注册 的 WndProc 窗 体 事件 处 理 函 数 ( RegisterClassEx 用 于 告诉 进程 窗 体 管理 器 所 注册 的 窗 体 
属性 ,如 背景 色 、 窗 体 上 的 鼠标 样式 以 及 窗 体 事件 处 理 函 数 等 ) 。NtUserDispatchMessage 在 执 
行 过 程 中 会 判断 是 否 需要 内 核 处 理 : 例 如 报 文 的 窗口 句柄 为 空 或 者 句柄 有 错误 而 找 不 到 目 
标 窗口 ,甚至 是 目标 窗口 不 属于 当前 线程 ,这 种 比较 特殊 的 情况 需要 内 核 处 理 , 否 则 不 需要 
内 核 处 理 。 如 条 不 需要 内 核 处 理 , 则 根据 从 NtUserDispatchMessage 返回 的 WndProc 后 数 调 
用 IntCallWindowProc ,也 就 是 先 在 用 户 态 空间 构筑 执行 环境 并 切换 到 用 户 态 ,进而 执行 返回 
的 用 户 态 函 数 WndProc。 至 于 怎么 在 内 核 态 空间 构筑 用 户 态 空间 堆栈 并 使 WndProc 在 用 户 
态 空 间 得 到 调用 就 是 下 一 节 的 内 容 了 。 


8.2.2 视窗 型 报 文 的 发 过 


下 面 我 们 来 看 视窗 型 报 文 的 发 送 。 

1. 张贴 型 报 文 的 发 送 

对 于 张贴 型 报 文 , Windows API 的 PostMessage 负责 消息 投递 ,其 调用 内 核 困 效 

UserPostMessage 针对 特定 视窗 报 文 广播 型 报 文 和 QUIT 报 文 分 别 进行 处 理 : 
> 对 特定 视窗 报 文 要 根据 句柄 找到 视窗 ,并 将 报 文 找 贝 到 内 核 态 空间 ,继而 调用 
MsqPostMessage 发 送 消息 报 文 ; 

> 针对 广播 型 报 文 要 先 获 取 时 面 所 有 的 视窗 ,而 后 按照 针对 特定 视窗 报 文 的 处 理 办 法 
> 针对 QUIT 报 文 则 直接 调用 MsqPostQuitMessage ,该 图 数 对 目标 视窗 所 在 线程 的 消息 
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队列 做 标记 并 激活 相关 等 待 事件 , 即 MessageQueue 的 NewMessages 标志 ,表明 新 的 消 
县 到 来 ,以 便 回 标 线程 处 理 QUIT 消息 。 

因 此 ,UserPostMessase 的 核心 就 是 执行 MsqPostMessage。 MsqPostMessage 的 主要 工作 
是 :创建 和 初始 化 视窗 型 报 文 ,将 该 报 文 挂 和 人 目标 线程 (或 称 为 目标 窗口 ) 的 MessageQueue 
的 PostedMessagesListHead 队列 ,并 设置 MessageQueue 的 NewMessages 标志 ,表明 新 的 消息 到 
来 , 再 要 唤醒 接收 病 线 程 。 

2. 发 送 型 报 文 的 发 送 

对 于 发 送 型 报 文 ,Windows API 的 SendMessage 负责 消息 投递 。 该 图 数 先 将 报 文 从 用 户 
态 空间 拷贝 到 内 核 态 空间 ,再 调用 NtUserSendMessage 发 送 报 文 。 在 这 个 发 送 过 程 中 ,该 阴 
数 也 会 判断 目标 视窗 是 当前 线程 还 是 其 他 线程 。 如 果 是 当前 线程 , 则 在 当前 函数 中 处理 视 
和 窗 报 文 即 可 ,否则 要 将 报 文 挂 人 其 他 线程 的 报 文 队列 并 等 待 这 些 线程 被 唤醒 。SendMessage 
的 执行 流程 如 图 8 一 11 所 示 。 


将 报 文 从 用 户 态 空间 拷贝 到 内 核 态 空 间 


目标 视窗 属 十 当前 线程 


周 用 NtUserSendMessage 发 送 报 文 


者 
ib nr * 届 调用 IntCallwindowProe 


i + 报 文 挂 入 执行 窗口 的 WndProc 困 数 
目标 线程 


到 8 一 11 SendMessage 的 执行 流程 


NtUserSendMessage 调用 Co _IntDoSendMessage 1 进行 报 文 发 送 。Co _IntDoSendMessage 首 
先 判断 句柄 是 否 有 效 , 如 条 根 据 和 人参 句柄 不 能 获取 到 目标 视窗 ,或 者 目标 视窗 不 属于 当前 线程 ， 
或 者 报 文 是 广播 型 报 文 , 那 还 是 要 留 到 内 核 中 去 处 理 的 ,不 过 也 不 必 立 即 处 理 , 也 就 不 必 在 当 
前 线程 调用 IntCallWindowProc ,而 是 调用 Co_IntSendMessage 或 Co_IntSendMessageTimeout 拦 
入 目标 窗口 所 属 线程 的 报 文 队 列 ; 反 之 , 石 报 文 是 非 广 播 型 报 文 或 者 目标 视窗 属于 当前 线程 
了 怠 不 需要 这 人 么 一 番 周 打 了 ,直接 在 NtUserSendMessage 嘱 | 数 中 调用 IntCallWindowProc 来 处 理 
即 可 ,这 意味 着 消息 的 发 送 和 处 理 都 在 当前 线程 ,只 是 要 回 到 用 户 态 空间 执行 WndProc 

Co_IntSendMessage 和 Co_IntSendMessageTimeout 并 没有 本 质 的 不 同 , 对 于 非 当 前 线程 的 
视窗 ,我 们 来 看 Co_IntSend MessageTimeout。Co_IntSendMessageTimeout 的 迎 罗 辑 比较 简单 . 
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> 针对 特定 视窗 报 文 直 接 发 送 到 目标 视窗 ( Co_lntSendMessageTimeoutSingle ) ; 
> 针对 时 面 视窗 则 先 获取 当前 困 面 下 的 所 有 视窗 , 授 历 这 些 视 窗 并 将 该 报 文 发 到 这 些 
视窗 中 。 而 这 个 发 送 图 数 的 核心 工作 又 分 为 两 部 分 : 
e。 对 于 目标 视窗 属于 当前 线程 的 情况 ,使 用 Co_IntCallWindowProc 回调 视窗 的 
WndProc 函数 , 即 从 内 核 态 空间 回调 用 户 态 空间 的 函数 ; 
。 对 于 目标 视窗 不 属于 当前 线程 的 情况 , 既 要 将 报 文 挂 人 本 线程 的 投递 队列 
DispatchingMessagesHead ,也 要 挂 人 目标 视窗 所 在 线程 的 SentMessagesListHead 队 
列 ,同时 唤醒 可 能 正在 等 待 接收 报 文 的 目标 线程 ( 置 位 MessageQueue 的 NewMessages 
标志 ) 。 
那么 接 下 来 ,发送 问 线程 就 要 睡眠 等 待 了 。 在 等 待 的 过 程 中 ,如 采 接 收 问 线 程 处 理 完了 
报 文 , 则 发 送 病 线 程 会 被 唤醒 ,在 被 唤醒 的 档 口 循 环 执行 Co_MsqDispatchOneSentMessage ,这 
是 因为 本 地 可 能 也 会 有 发 送 型 报 文 要 投递 。 
发 送 型 报 文 是 非常 紧急 的 ,而 且 会 使 发 送 闹 线程 阻塞 ,快手 快 脚 地 处 理 完 发 送 型 报 文 无 
论 对 于 接收 端 还 是 发 送 端 而 言 都 是 明 乔 之 举 。 


8.3 ”用 户 态 空间 回调 机 制 


上 市 留 了 一 个 尾巴 ,所 训 对 视窗 型 报 文 的 处 理 就 是 调用 视窗 的 WndProc 靖 数 ,但 是 
WndProc 都 是 在 用 户 态 空间 中 的 ,而 报 文 的 处 理 是 在 内 核 态 空间 中 的 。 那 怎样 做 到 在 内 核 
态 空 间 回 调用 户 态 空间 的 函数 呢 ? 这 就 是 本 市 要 解决 的 问题 。 

虽然 APC( 蜡 步 过 程 调用 ) 也 可 以 实现 从 内 核 态 空间 向 用 户 态 空间 的 回调 ， 但 因为 发 送 
型 报 文 类 似 同 步 通信 机 制 ,不 允许 在 线程 切换 的 档 口 执行 用 户 态 空间 部 分 ,因此 类 似 APC 
这 样 的 有 些 延 运 和 异步 的 调用 方式 并 不 适用 于 视窗 型 报 文 处 理 的 场景 ,所 以 必须 有 一 种 新 
的 回调 机 制 来 处 理 堆 栈 切 换 和 蜂 空 间接 口 调用 等 一 系列 操作 。 

win32k. sys 有 一 种 特殊 的 机 制 , 可 以 用 来 完成 上 述 场景 的 堆栈 切换 和 接口 调用 。 虽 然 
这 样 切换 的 效率 不 是 很 高 ,但 毕竟 这 种 切换 机 制 可 以 做 到 同步 切换 。 考 虑 到 视窗 型 报 文 也 
不 会 发 生得 很 频繁 ,这 种 机 制 应 付 视窗 操作 的 用 户 态 空间 回调 还 是 足够 了 的 。 在 这 里 ,我们 
规定 了 6 类 回调 操作 ,如 图 8 一 12 所 示 。 

在 PEB 的 回调 函数 表 域 KernelCallbackTable 中 存在 6 个 元 素 ,分别 对 应 了 user32. dll 里 面 
的 6 个 限 数 指针 (索引 值 如 图 8 一 12 所 示 ) ,这 些 靖 数 用 于 从 内 核 态 空间 向 用 户 态 空间 回调 。 
当 一 个 进程 加 载 user32. dll 的 时 候 就 需要 设置 好 回调 函数 表 。 我 们 在 回调 用 户 态 空间 函数 的 
时 候 , 以 案 引 值 为 参数 ,以 系统 调用 KeUserModeCallback 为 统一 人 口 , 不 同 的 驼 引 值 对 应 了 不 
同 的 函数 指针 , 哨 数 所 需要 传人 的 参数 块 也 是 不 一 样 的 。 不 过 无 论 参数 块 有 多 少 不 同 ,视窗 句 
柄 和 视窗 的 图 数 指针 一 定 是 存在 的 ,KeUserModeCallback 这 个 图 数 会 构筑 用 户 态 堆栈 以 回调 视 
窗 限 数 。 
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Lser32CallWindowProcFromk.ernel 


PEB.KernelCallback Table 


USER CALLBACK LOADSYSMENUTEMPLATE: 2 User32LoadSysMenuTemplateForK.ernel 


USER CALLBACK LOADDEFAULTCURSORS: 3 


| 

| 

| 

| 

| 

| 

| 

| 

| 

| 

i JLTC . | 
ee 有 加 | 
USER CALLBAC KR HOOKPROC: 4 | . User32SetupDetfaultCursors | 
USER32 CALLBACK EVENTPROC:; 3 
| 

| 

| 

| 

| 

| 

| 

| 


| 
| 
| | 
| 
USER CALLBACK WINDOWPROC: 0 User32CallSendAsyneProcFromKernel 
USER CALLBACEK SENDASYNCPROC: 1 | . 
| 
| 


Lser32CallHookProcFromKernel 


| 
| 
| 
| 
| 
’ Lser32CallEventProcFromkernel 
| 
| 
| 


User32.d]] 
图 8-12 PEB 中 的 回调 函数 表 


面 介 绍 在 内 核 态 空间 执行 KeUserModeCallback 的 过 程 。 
en 空间 堆栈 。 因 为 要 在 用 户 态 空间 执行 回调 恩 数 ,所 以 需要 在 这 里 构筑 
回调 函数 的 调用 堆栈 ,如 图 8 一 13 中 左 半 部 分 所 示 。 由 于 改变 了 用 户 态 空间 堆栈 地 址 ,因此 
要 将 新 的 堆栈 地 址 更 新 到 内 核 态 空间 堆栈 原 有 的 日 陷 框 架 中 ,如 图 8 一 13 右 半 部 分 所 示 。 


低 址 
TID 
EPE 原 有 TrapFrame 
堆栈 生 
长 方 回 Areument AreumentLength 


用 户 态 空间 原 有 堆栈 内 核 态 空间 厚 有 堆栈 


用 户 态 空间 堆栈 内 核 态 空 间 堆栈 
图 8-13 KeUserModeCallback 对 于 堆栈 的 修改 
堆栈 安排 好 了 以 后 ,KeUserModeCallback 调用 KiCallUserMode 继续 构造 和 完善 内 核 扒 栈 ， 
完成 后 调用 KiServiceExit 返回 用 户 态 空间 。KiCallUserMode 对 于 内 核 堆 栈 的 修改 如 图 8 一 14 
所 示 , 具 体 如 下 : 
> 在 原 有 的 内 核 堆 栈 上 构造 KiCallUserMode 的 调用 框架 ,并 将 参数 和 返回 地 址 奈 栈 ; 
> 保存 EBP 等 寄存 顺 的 值 ,这 里 只 需要 保存 4 个 寄存 器 的 值 ; 
> 将 原 有 回调 框架 的 位 置 .日 陷 框 架 指 针 等 压 栈 ,并 更 新 回调 框架 指针 ; 
> 构筑 新 的 日 陷 框 架 和 浮 点 运算 框 染 , 其 中 浮 点 运算 框架 可 以 与 内 核 态 空间 堆栈 中 前 
一 个 NPX_FRAME 一 致 , 自 隐 框架 也 与 前 一 个 TRAP_FRAME 基本 一 致 ,只 是 EIP 更 
改 为 KeUserCallbackDispatcher。 
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低 址 
新 建 TrapFrame 伪造 的 新 框架 
EIP: KellserCallbackDispatcher 
CurrentThread.CallbackStack 
更 新 赋值 
NPX FRAME 
狐 的 回调 框 染 的 位 置 
保存 原 有 回调 框架 的 位 置 
长 方向 只 需要 保存 这 4 个 案 存 器 的 值 
KiCallUserMode 计 用 框架 
原 有 TrapFrame 
内 核 态 空间 原 有 堆栈 
高 址 


内 核 态 空间 堆栈 
8 一 14 ”KiCallUserMode 对 内 核 态 空间 堆栈 的 改造 

这 里 要 注意 的 是 ,内 核 堆 栈 的 初始 空间 以 及 可 与 页 面 数 量 可 能 没有 那么 大 ,这 时 候 需 要 
先 扩展 堆栈 ,大 约 为 3 个 内 存 页 面 (12 KB) 的 大 小 ,以 防 堆 栈 数据 溢出 。 

内 核 态 堆栈 构筑 完成 后 再 调用 KiServiceExit 跳 转 到 用 户 态 空间 ,并 执行 内 核 态 堆栈 的 
TRAP_FRAME 中 的 指令 指针 EIP, 即 KeUserCallbackDispatcher 函数 ,该 函数 以 用 户 态 空间 推 
栈 中 事先 构筑 好 的 Index、 Arsgument 指针 、ArgumentLength 等 为 参数 ,其 执行 过 程 如 图 8 一 15 
所 示 。 


低 址 新 建 TrapFrame 
| 


| 
| 0 | 
<- Pe = 本 + | 
执行 KeUserCallbackDispatcher 消 
\ 国 
| 
| NtCallbackReturmn 返 回 值 
堆栈 生 执行 KernelCallbackTable[Index] _ 
0 | | i 光 汪 并， 返回 什 要 做 ’ 
a 步 的 入 参 ) \ 回调 返回 值 
, | 
| 执行 完成 消耗 构造 调 | NPX_FRAME 
| 掉 调 用 框架 用 框 染 | 


与 2 有 旧 || 王 才 堆 椎 | 
用 户 态 空间 原 有 堆 楼 内 核 态 空 间 原 有 堆栈 


| 
| 
高 址 _| 


执行 NtCallbackReturn 返 回 内 术 


用 户 态 空间 堆栈 内 樟 态 空间 堆栈 


图 8 一 15 KeUserCallbackDispatcher 执行 过 程 以 及 堆栈 使 用 情况 
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KeUserCallbackDispatcher 幸 用 返回 闻 数 ZwCallbackReturn。 但 在 调用 ZwCallbackReturn 
之 前 ,首先 需要 调用 PEB 中 的 KermelCallbackTable 域 对 应 的 Index 的 元 素 (回调 函数 指针 )， 
这 个 调用 Dy Argument 指针 和 ArgeumentLength 为 参数 ,调用 完成 后 以 其 返 回 值 为 参数 再 调用 
ZwCallback Return 。 
ZwCallbackReturn( NtCallbackReturn ) 调用 是 个 系统 调用 ,该 调用 是 要 返回 内 核 态 的 ， 
为 KernelCallbackTable 回调 函数 的 执行 是 在 用 户 态 空间 ,用 的 也 是 用 户 态 空间 堆栈 ,执行 完 
成 后 , 用 户 态 空间 堆栈 配 平 , 参数 被 消耗 挥 并 出 栈 , 用 户 态 空间 堆栈 又 恢复 到 
KeUserModeCallback 执行 之 前 的 状态 丁 。 
NtCallbackReturn 执行 时 ,原先 新 建 的 TrapFrame 已 经 消耗 完了 ,由 于 接 下 来 要 返回 内 核 
态 空 间 执 行 , 因 此 要 在 内 核 态 空间 堆栈 构筑 NtCallbackReturn 的 调用 框架 (如 图 8 一 15 中 夸 
半 部 分 ) 。NtCallbackReturm 的 主要 任务 有 : 
> 恢复 当前 线程 的 KTHREAD 结构 的 InitialStack 域 为 原来 的 值 。 
> 恢复 NPX_FRAME 框架 中 浮 点 寄存 如 中 的 值 。 
> 弹出 内 核 态 堆 栈 中 的 NPX_FRAME ,恢复 到 最 原始 的 内 核 态 空间 堆栈 状态 ,并 将 栈 顶 
指针 赋值 给 ESP 寄存 关 。 这 里 要 注意 的 是 ,KiCallUserMode 是 不 返回 的 ,因此 它 在 内 
核 态 空间 的 回调 框 染 不 会 日 己 清理 ,只 能 依 NtCallbackReturn 来 清理 了 。“ 一 只 于 
是 赶 ,两 只 羊 也 是 放 ”, 内 核 态 空间 堆栈 的 恢复 就 干脆 由 NtCallbackReturn 一 并 做 了 。 

> 恢复 TSS 的 ESP0 指针 (内 核 态 堆栈 为 了 返回 用 户 态 空间 ,构筑 了 新 的 NPX_FRAME 
和 TRAP_FRAME ,因此 堆栈 指针 发 生 了 变化 ,此 时 需要 将 新 的 堆栈 栈 顶 地 址 赋值 给 
TSS 的 ESP0 域 , 因 为 在 这 种 状态 下 当前 线程 可 能 被 中 断 和 切换 ,既然 可 能 发 生 切 换 ， 
那么 内 核 态 堆栈 栈 顶 是 一 定 要 保存 到 TSS 中 的 ) 。 

在 上 述 过 程 中 ,我 们 用 的 索引 值 可 能 是 USER32_CALLBACK_WINDOWPROC ,那么 对 应 的 
函数 就 是 User32CallWindowProcFromKernel。 当 然 ,User32CallWindowProcFromKernel 也 是 个 统 
一 人 口 的 函数 ,其 本 质 还 是 调用 IntCallWindowProceW 进而 调用 用 户 态 空间 的 视窗 函数 。 如 索 
引 值 是 USER32_CALLBACK_HOOKPROC, 则 对 应 的 函数 就 是 User32CallHookProcFromKernel 
了 。 从 这 些 函 数 名 称 的 后 半 部 分 (FromKermnel) 也 可 以 看 出 这 些 函 数 是 需要 从 内 核 态 空间 返回 
用 户 态 空间 去 执行 的 。 

上 述 过 程 执行 完毕 ,向 用 户 态 空间 的 回调 便 完 成 了 。 

最 后 要 说 明 的 是 ,视窗 型 报 文 的 传递 过 程 可 能 会 有 ”挂钩 点 " 存在。 挂钩 (Hook ) 是 一 种 
特殊 的 消息 处 理 机 制 , 它 可 以 监视 系统 或 者 进程 中 的 各 种 事件 消息 ,截获 发 往 目 标 视窗 的 消 


路 上 ,从 而 使 消息 流转 的 方 回 做 了 转弯。 当然, 必须 是 视窗 线程 才 会 有 能 用 于 挂 多 的 视窗 型 
报 文 挂钩 表 。 

Windows API 提供 了 SetWindowsHook 和 SetWindowsHookEx 两 个 方法 在 消息 传递 路 径 上 
安装 挂 钓 。 不 过 ,只 有 固定 的 消息 才能 安 污 挂 钧 ,例如 WH_KEYBOARD 或 WH_MOUSE , 表 
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未 在 发 生 了 WH_KEYBOARD 消息 的 时 候 采 用 夯 一 个 吨 数 来 处 理 这 个 消息 ,其 优先 级 比 原 来 
注册 的 视窗 函数 高 。 

SetWindowsHook 或 SetWindowsHookEx 实质 上 也 是 调用 win32k. sys 的 扩展 系统 调用 
NtUserSetWindowsHookEx。 在 win32k. sys 中 有 个 挂钩 表 ,其 中 存放 了 和 在 干 HOOK 结构 ,一 个 
挂 钓 对 应 一 个 HOOK 结构 。 并 且 挂 钩 表 中 对 于 每 一 个 能 挂 钧 的 点 都 有 个 挂钩 队列 ,队列 中 
存放 HOOK 结构 。 也 就 是 说 挂钩 表 是 一 个 队列 数组 ,这 个 数组 的 索引 就 是 WH_KEYBOARD 
这 样 的 消息 报 文案 引 值 , 因 此 每 个 队列 代表 了 一 个 消 奶 挂钩 点 。 

HOOK 结构 中 包含 了 所 属 线程 挂 钓 处 理 消 数 指针 等 参数 。 之 所 以 每 个 挂 钓 点 对 应 一 个 
队列 是 因为 每 个 点 可 以 安装 多 个 挂钩 ,最 后 安装 的 挂 钧 会 最 先 被 调用 。 挂 钩 表 分 为 两 种 , 即 本 
线程 的 局 部 挂钩 表 和 系统 的 全 局 挂钩 表 , 本 线程 的 报 文 队列 USER_MESSAGE_QUEUE 结构 中 
有 个 挂钩 表 指 针 ,指向 本 线程 的 局 部 挂钩 表 ; 全 局 指针 GlobalHooks 则 指向 全 局 挂钩 表 。 

前 文 说 过 ,在 Co_MsqDispatchOneSentMessage 8 数 中 一 个 报 文 在 流转 时 过 到 一 个 挂 钓 
点 会 调用 Co_Hook_CallHooks 或 Co_IntSendMessage ,而 有 日 Co_Hook_CallHooks 在 前 ,这 也 意 
味 看 Co_Hook_CallHooks 会 先 被 执行 ,后 面 还 调 不 调用 Co_IntSendMessage 就 要 看 Co_Hook_ 
CallHooks 的 处 理 逻 辑 了 。Co_Hook_CallHooks 首先 判断 该 点 位 是 否 有 局 部 挂钩 表 , 没 有 的 
话 册 看 看 全 局 挂钩 表 , 这 也 可 以 看 出 局 部 挂 钧 的 优先 级 高 于 全 局 挂钩 。 然 后 判断 这 个 挂钩 
是 否 就 属于 当前 线程 ,如 有 果 不 属于 当前 线程 而 且 挂 钧 点 比较 底层 , 那 本 线程 处 理 不 了 ,就 通 
过 Co_MsqSendMessage 发 往 HOOK 结构 所 属 线程 ,让 它们 去 处 理 ; 和 否则 , 束 在 当前 线程 处 理 
了 , 即 由 Co _ IntCallHookProe 完成 用 户 态 空间 的 挂钩 图 数 调 用 。 不 出 所 料 , Co - 
IntCallHookProc 也 是 调用 KeUserModeCallback, 只 不 过 人 有 参 的 Index 变 成 了 USER32 _ 
CALLBACK_HOOKPROC 了 ,但 调用 过 程 机 制 与 上 文 所 述 古 完全 一 致 的 。 


8.4 键盘 与 鼠标 报 文 的 啊 应 机 制 


键盘 与 鼠标 消息 报 文 的 投递 是 视窗 型 报 文 的 接收 与 发 送 的 最 典型 示例 ,只 不 过 它们 都 
是 硬件 报 文 或 张贴 型 报 文 。 我 们 在 本 节 中 考察 一 下 这 两 种 设备 的 报 文 产生 和 投递 ,作为 对 
前 面 内 容 的 补充 。 

在 win32k. sys 模块 初始 化 的 时 候 ,系统 为 键盘 和 鼠标 各 设置 了 一 个 内 核 线程 ,如 下 
所 示 : 

> 键盘 报 文 线程 :KeyboardThreadMain ; 

> 鼠标 报 文 线程 .MouseThreadMain 。 

这 两 个 线程 面向 系统 中 其 他 所 有 线程 提供 键盘 和 鼠标 的 输入 报 文 。 我 们 先 来 看 键盘 报 
文 线程 KeyboardThreadMain ,如 图 8 一 16 所 示 , 其 处 理 流程 非常 简单 。 
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打 半 键 雁 对 水 
“Device\kevboardClass0 


从 键盘 对 象 读 入 扫描 码 : -一 一 扫描 码 是 KEYBOARD INPUT_DATA 结 构 
NtReadFile 


获取 焦点 视窗 的 报 文 队列 指针 : 


IntGOetFocusIMessaceCueue 


循环 执行 判断 是 寿 为 热 键 


处 理 热 键 报 文 : 处 理 普通 键 报 文 : 
MsqPostHotk eyN\lessage Co MsqPostkevboardNVlessage 


处 理 完成 


图 8 一 16 键盘 报 文 线程 的 处 理 流 程 


这 里 需要 说 明 以 下 几 点 : 

> win32k. sys 模块 中 有 个 全 局 指针 InputDesktop 指向 当前 桌面 的 对 象 结构 DESKTOP_ 
OBJECT, 该 对 象 包含 一 个 ActiveMessageQueue 指针 指 癌 当前 的 焦点 视窗 的 报 文 队 列 
( USER_MESSAGE_QUEUE 结构 ) ,系统 调用 IntGetFocusMessageQueue 就 是 为 了 获取 
a 

> 所 谓 热 键 就 是 一 些 功能 组 合 键 ,例如 Ctrl + Alt + Del 组 成 的 热 键 可 以 调 取 任务 管理 
硕 。 热 键 是 需要 提前 注册 的 ,系统 中 的 默认 热 键 组 合 是 系统 初始 化 时 注册 的 ,使 用 
user32. dll 提供 的 接口 RegisterHotKey 可 以 回 win32k. sys 注册 热 键 。win32k. SYS 模块 
中 有 个 全 局 的 热 键 列表 gHotkeyList, 每 次 注册 热 键 就 挂 入 一 个 热 键 数据 结构 
HOTKEYITEM 。 

> 普通 的 键盘 报 文 有 4 种 类 型 .WM_KEYUP WM_KFEYDOWN .WM_SYSKEYUP 和 WM_ 
SYSKEYDOWN ,代表 了 键盘 的 按压 和 弹出 。 这 些 报 文 都 是 采用 MsqPostMessage 因数 
投递 出 去 的 。 当 然 ,投递 之 前 要 先 检查 是 否 有 挂钩 ,有 的 话 承 先 执行 挂钩 函数 。 

下 面 再 来 看 鼠标 报 文 线程 MouseThreadMain 如 图 8 一 17 所 示 ， 其 处 理 流 程 与 键盘 报 文 


线程 的 处 理 流 程 很 不 一 样 。 


前 面 的 流程 比较 人 简单, 我们 从 SendMouseEvent 开始 解释 。SendMouseEvent 的 参数 是 个 


MOUSEEVENT 结构 ,这 个 数据 结构 中 包含 了 鼠标 移动 的 坐标 X,Y, 如 果 X,Y 值 与 上 一 次 的 
XY 值 不 一 样 , 则 说 明 鼠 标 发 生 了 移动 。SendMouseEvent 包含 两 个 操作 ;执行 IntMouseInput 
和 ClearMouseInput ,前 者 是 鼠标 移动 时 发 送 报 文 的 操作 载体 ,后 者 只 是 将 MOUSEEVENT 结 
构 清 零 。 


2 


应 用 软件 开发 协议 材 LO 


打开 鼠标 对 象 


“Device\PomterClass0™ 


从 鼠标 对 象 读 入 鼠标 


输入 数据 ，NtReadFile 一 该 数据 是 MOUSE INPUT_DATA 结 梳 


} 理 获 取 到 的 MOUSE INPUT DATA 将 MOUSE INPUT _DATA 中 的 XY 
ProcessMouselnputData 坐标 赋值 给 MOUSEINPUT 结 构 


一 一 一 一 一 一 一 一 一 一 一 


sendMouseEvent(MOUSEEVENT) 


图 8-17 鼠标 报 文 线程 的 处 理 过 程 


IntMouseInput 包含 以 下 三 个 操作 : 
> 获取 当前 虽 面 上 光标 的 位 置 .IntGetCursorLocation 。 
> 判断 光标 是 否 发 生 了 移动 ,判断 依据 是 将 当前 MOUSEEVENT 的 X,Y 坐标 与 上 一 次 
的 X,Y 坐标 相 比 较 , 若 有 不 同 则 说 明 发 生 了 移动 ,调用 IntEngMovePointer 移动 鼠标 ; 
反之 , 则 说 明 没 有 移动 ,不 需要 进行 任何 操作 。 
> 右 发 生 了 移动 则 通过 MsqInsertSystemMessage 将 一 个 鼠标 移动 报 文 插 和 人 系统 报 文 队列 
SystemMessageQueue 中 (如 果 队 列 已 满 就 不 再 搬 人 ) ,并 唤醒 在 便 件 消息 事件 
HardwareMessageEvent 上 等 竺 的 线程 。 
鼠标 报 文 有 这 样 几 种 类 型 .WM_MOUSEMOVE、WM_LBUTTONUP、WM_RBUTTONUP、 
WM_LBUTTONDOWN 、WM_RBUTTONDOWN ,分 别 表示 左 ,右键 的 按 下 和 弹 起 以 及 滚轮 移 
动 , 这 几 类 报 文 均 存放 在 SystemMessageQueue 中 SystemMessageQueue 是 个 环形 队列 ,其 最 
大 值 SYSTEM_MESSAGE_QUEUE_SIZE 在 Windows NT 内 核 中 定义 为 256。 
我 们 在 前 文中 介绍 过 ,Co_MsqFindMessage 在 处 理 完 张贴 型 报 文 后 开始 处 理 硬 件 报 文 ， 
这 里 说 的 就 是 鼠标 报 文 。 对 于 来 日 鼠标 的 报 文 ,我 们 用 Co_MsqTranslateMouseMessage 来 投 
递 , 这 种 投递 就 是 将 报 文 挂 到 目标 视窗 线程 的 HardwareMessagesListHead (人 硬件 报 文 队 列 ) 


用 Co_MsqTranslateMouseMessage 投递 报 文 前 也 要 先 看 看 挂钩 点 是 否 有 挂钩 项 ,有 的 话 要 先 
执行 挂钩 图 数 ,能 不 能 轮 到 Co_MsqTranslateMouseMessage 投递 就 要 看 挂 钧 负数 对 于 报 文 的 
拦截 操作 处 理 了 。 

这 里 还 要 强调 一 下 :SystemMessasgeOueue 环形 队列 是 由 内 核 线 程 MouseThreadMain 来 十 
充 的 ,作为 内 核 线 程 ,MouseThreadMain 是 运行 在 任意 上 下 文 的 , 它 与 具体 视窗 的 硬件 报 文 队 
列 要 有 个 交接 ,这 个 交接 由 全 局 硬件 报 文 队列 HardwareMessageQueueHead 完成 ,只 有 没有 被 
挂 钧 范 数 “ 勾 走 ” 的 报 文才 会 有 幸 进 入 这 个 全 局 硬件 队列 ,进而 被 投递 给 具体 视窗 线程 。 

以 上 就 是 键盘 与 鼠标 报 文 的 产生 和 投递 的 处 理 过 程 。 
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本 章 小 结 


本 章 首先 介绍 了 视窗 型 报 文 的 各 种 数据 结构 和 7 种 报 文 队列 ,然后 介绍 了 视窗 型 报 文 
的 接收 和 发 送 流程 ,也 就 是 报 文 在 各 种 队列 中 是 怎样 流转 的 。 当 报 文 返回 用 户 态 空间 时 , 需 
要 借用 回调 机 制 进行 处 理 , 同 时 在 返回 的 过 程 中 ,需要 处 理 好 用 户 态 空间 和 内 核 态 空间 堆栈 
的 布局 。 最 后 以 键盘 和 鼠标 的 中 断 响 应 为 例 简单 回顾 了 视窗 型 报 文 的 处 理 流程 。 
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结构 化 异常 处 理 ( Structure Exception Handling, SEH ) 古 Windows 内 核 机 制 的 重要 组 成 部 
分 。SEH 本 号 与 语言 无 天, 但 现代 编程 语言 (如 C++ 、C#、Java 等 ) 的 异常 处 理 框 染 都 是 在 
SEH 基础 上 封闭 和 演变 过 来 的 。 因 此 ,了 人 解 结 构 化 异常 处 理 的 框架 及 相关 流程 ,对 于 掌握 
Windows 和 编程 语言 的 异常 处 理 机 制 非常 重要 。 

但 是 我 们 要 明日 ,所 请 “ 异 第 ”是 相对 而 言 的 。 什 么 是 异 第 ? 内存 缺 页 也 自 是 异 前 ,但 这 
是 系统 中 经 常会 发 生 的 事件 ,这 类 事件 就 不 能 算 异 委 , 而 是 第 态 。 此 处 所 说 的 异常 主要 是 指 
诸如 除数 为 0 内存 违例 读 写 .内 存 访问 溢出 此 类 的 行为 ,针对 这 类 异 篆 我 们 和 希望 能 够 妥善 且 
优雅 地 解决 问题 ,比如 跳 转 到 正常 的 代码 区 或 者 修复 执行 参数 等 ,因此 需要 用 到 结构 化 异 篆 
处 理 机 制 。 但 是 异常 处 理 是 个 双 丸 剑 。 自 先 ,针对 某 些 异 妆 确实 可 以 通过 修改 参数 来 妥善 
处 理 , 使 之 “拨乱反正 ”, 回 到 正和 常 的 执行 流程 中 ,但 是 针对 大 多 数 的 异常 ,其 主要 作用 还 是 优 
雅 地 终止 出 错 线程 或 进程 ;其 次 ,由 于 异常 处 理 框 染 涉 及 复杂 的 堆栈 操作 和 善后 处 理 ,因此 
执行 开销 非常 大 \ 耗 时 长 .复杂 度 融 ,不 能 大 规模 频 壹 使 用 。 

除了 结构 化 异常 处 理 ,Windows XP 及 以 上 的 版 本 还 提供 了 一 种 叫 作 问 量化 异常 处 理 
( Vectored Exception Handling,VEH) 的 机 制 。VEH 机 制 是 对 SEH 机 制 的 补充 完善 ,提供 了 
优先 于 SEH 的 处 理 机 会 。 

在 本 革 我 们 将 按照 图 9 一 1 所 示 的 提纲 进行 结构 化 异常 处 理 机 制 的 介绍 。 

SEH 框 架 与 “try-catch” 框 敌 的 奖 比 //5EH 是 探 作 系统 的 异常 处 理 机 制 
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图 9-1 本 章 提 纲 
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9.1 结构 化 异常 处 理 框 架 


我 们 在 使 用 C++ 等 语言 编程 时 经 常 遇 到 “ty-catch” 框 架 ,这 个 框架 类 似 以 下 形态 ， 


try 1 
Funcl (}); 
} catch (…) { 
Func2 (}; 
} 


其 实 这 是 高 级 语言 对 结构 化 异 稼 处 理 机 制 的 改进 和 封装 , 究 其 本 质 还 是 操作 系统 的 
SEH 框架 ,而 Windows 的 SEH 框架 是 下 面 这 个 样子 . 


SEH TRY{ 
Funcl (}); 

} SEH HANDLE { 
Func2 (}; 

} SEH END 


可 以 看 到 ,这 个 框架 与 高 级 语言 的 “try-cateh” 框架 长 得 很 像 ,“ 本 是 同根 生 , 变异 何 太 
急 ” ,理解 SEH 框架 ,对 于 高 级 语言 的 异常 处 理 机 制 也 就 大 概 清楚 了 : 
> _SEH_TRY 后 面 近邻 的 大 括号 里 的 内 容 是 我 们 要 保护 的 程序 代码 ,这 个 大 括号 称 为 
“保护 域 ”"。 说 是 保护 ,其 实 不 是 说 不 让 发 生 异 常 ,而 是 异常 发 生 后 有 应 对 的 处 理 机 
制 ,因此 我 们 要 把 可 能 发 生 异 常 的 代码 放 在 _SEH_TRY 域内 , 它 对 应 “try-catch” 框 架 
的 try 域 。 
> _SEH_HANDLE 后 面 名 近 的 大 括号 里 的 内 容 是 异常 代码 的 “处 理 域 ”, 这 个 域内 的 代 
码 负 责 对 异常 进行 过 滤 人 处 理 。 异 和 常 的 种 类 是 很 多 的 ,例如 除 零 异常 .内 存 访 问 异 常 
等 ,不 可 能 有 一 个 大 而 全 的 处 理 函 数 把 所 有 的 异常 处 理 都 圳 括 在 内 ,因此 需要 根据 异 
篆 的 种 类 分 类 指导 精准 处 理 , 构 筑 一 个 个 小 而 美的 异 负 处 理 图 数 。_SEH_HANDLE 
域 的 工作 就 是 根据 异 稼 的 种 类 找到 对 应 的 处 理 图 数 , 它 对 应 的 是 “tv-catch” 域 的 
catch 域 。 
> _SEH_END 是 个 宏 定义 ,负责 的 是 善后 工作 。 如 果 保 护 域 中 的 代码 未 发 生 异 常 , 正 
常 执行 完毕 ，SEH_END 就 从 局 部 SEH 框架 栈 中 摘除 当前 SEH 框架 ,并 从 全 局 SEH 
框架 队列 中 摘除 相应 框架 。 
所 以 SEH 框架 就 是 先 执行 _SEH_TRY 域 中 的 代码 (保护 域 ) ,执行 过 程 中 如 果 发 生 异 党 
则 转 去 执行 _SEH_HANDLE 域 中 的 代码 (处 理 域 ) ,否则 就 跳 过 _SEH_HANDLE 域 直接 执行 
_SEH_END 域 中 的 代码 来 摘 际 SEH 框架 (善后 域 )。 
那么 什么 是 SEH 框架 ? 什么 是 全 局 SEH 框架 ? 什么 又 是 局 部 SEH 框架 呢 ? 
一 个 SEH 框架 对 应 一 个 _SEH_TRY 和 _SEH_HANDLE 域 ,对 应 到 高 级 语言 就 是 一 个 try 
域 和 对 应 的 春 干 个 catch 域 。 在 实际 应 用 中 ,我们 会 遇 到 上 般 套 的 情况 ,例如 try 域 中 还 有 个 
try 域 , 或 者 try 域 中 的 函数 里 面 又 调用 了 “try-catch ”框架 ,这 种 叫 作 异常 处 理 般 套 。 
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秀 套 分 为 两 种 :局 部 舍 套 和 全 局 能 套 。 所 谓 局 部 磐 套 ,是 指 能 够 一 目 了 然 的 , 即 上 面 描 
述 的 try 域 中 还 有 个 try 域 的 情况 ,这 种 能 套 也 叫 " 形 式 藤 套 ”; 而 try 域 中 的 函数 里 面 义 调用 
J 了 “try-ceatch "框架 的 情况 称 为 全 局 舱 套 ,也 叫 " 实质 上 租 套 ” ,实质 区 套 并 不 能 一 日 了 人 然 。 局 部 
横 套 对 应 的 框架 叫 作 局 部 SEH 框架 ,全 局 舰 套 对 应 的 框架 叫 作 全 局 SEH 框架 。 

由 于 异常 处 理 存在 骨 套 的 情况 ,并且 异 常 处 理 要 用 到 堆栈 结构 ,因此 也 会 形成 SEH 框 
架 栈 , 与 般 套 种 类 相对 应 地 也 分 为 局 部 SEH 框架 栈 和 全 局 SEH 框架 栈 。 在 栈 中 , 越 在 内 层 
的 框架 越 徘 近 栈 顶 ,也 就 越 早 会 弹出 。 

图 9 一 2 中 左 半 部 分 是 SEH 框架 栈 在 堆栈 中 的 示意 图 。 假 定 包 含 外 中 、 内 三 层 SEH 框 
涤 , 当 异常 发 生 时 , 先 从 内 层 SEH 框架 开始 过 滤 处 理 , 内 层 处 理 不 了 时 由 中 层 SEH 框架 来 处 
理 ,当中 层 也 处 理 不 了 时 再 调用 外 层 SEH 框架 来 处 理 , 逐 层 向 外 扩展 。 当 由 中 层 或 外 层 
SEH 框架 处 理 时 ,跨越 过 去 的 这 几 层 SEH 杠 避 ( 内 层 中层) 存在 一 个 "“ 栈 展开 "的 善后 问题 。 
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9-2 全 局 SEH 框架 在 堆栈 和 异常 链表 中 的 形态 


为 在 代码 从 外 到 内 执行 的 过 程 中 ,SEH 框架 也 是 由 外 而 内 被 有 之 层 设置 的 ,SEH 框 染 的 
设置 就 像 盖 楼 时 搭建 脚 手 如 一 样 是 用 来 预防 发 生 异 稼 或 意外 的 ,但 搭建 脚手架 是 需要 成 本 
的 ,会 有 资源 的 占用 和 消耗 ,而 现在 越过 了 内 层 SEH 框架 就 相当 于 上 层 的 脚手架 作废 了 , 那 
么 之 前 占用 的 资源 就 应 该 被 释放 。 正 常情 况 下 异常 的 过 滤 和 处 理 之 后 会 有 对 于 资源 的 释 
放 , 但 现在 越过 了 一 部 分 过 滤 和 处 理 阶段 ,资源 释放 这 些 善 后 工作 自然 也 会 被 越过 ,这 就 是 
“ 栈 展开 ”问题 的 本 质 。 

图 9 -2 中 右 半 部 分 是 SEH 框架 在 异常 框架 列表 ExceptionList 中 的 形态 ,内 层 SEH 框架 
最 后 人 队 ,因为 内 层 的 代码 是 最 后 执行 的 。 对 ExceptionList 大 家 可 能 还 有 印象 ,我 们 在 保存 
线程 现场 的 时 候 会 压 栈 当前 线程 的 执行 上 下 文 ,其 中 就 包括 这 个 ExceptionList 。 在 用 户 态 空 
则 ,这 个 链表 是 跟 线程 相关 的 ,由 TEB 的 线程 信息 块 描述 ;在 内 核 态 空间 ,这 个 链表 是 由 
KPCR 的 线程 信息 块 描述 的 ,是 全 局 的 。 但 无 论 怎样 ,在 用 户 态 空间 和 内 核 态 空间 都 要 有 这 个 
队列 ,而且 都 是 由 FS 寄存 器 的 相同 偏 移 (Offset:0) 位 置 指 回 的 ,这 就 为 我 们 在 两 个 内 存 空间 中 
获取 异常 处 理 链表 提供 了 便利 ,如 图 9-3 所 示 。 

这 里 要 强调 的 是 ,只 有 全 局 SEH 框架 才 会 人 队 成 为 ExceptionList 中 的 节点 ( 横 回 生 
长 ) ,也 只 有 全 局 SEH 和 框架 才 会 进入 堆栈 形成 链表 ( 纵 回 生 长 )。 形 式 的 .局 部 的 SEH 框架 
除了 最 外 一 层 作为 全 局 SEH 框架 入 队 、 入 栈 之 外 ,其 内 层 的 舱 套 SEH 框架 是 作为 队列 元 素 
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9 一 3 ”TEB 指向 异常 处 理 链表 
的 兄弟 节点 存在 的 (纵向 的 ) ,但 本 质 上 也 构成 一 种 堆栈 结构 ,因此 也 叫 “ 框 架 栈 ” ,只 不 过 一 


个 是 全 局 的 ,一 个 是 局 部 的 ,范围 不 一 样 ,如 图 9 一 4 所 示 。 
Next Next 
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9-4 局 部 SEH 框架 在 异常 链表 中 的 形态 


系统 通过 SEHEnterFrame 方法 将 一 个 全 局 SEH 框架 挂 人 kxceptionList, 通 过 
_SEHUnregisterFrame 方法 从 ExceptionList 中 摘除 全 局 SEH 框架 而 挂 入 kxceptionList 的 是 
一 个 _SEHRegistration 数据 结构 , 它 包含 两 个 元 取 . 
> 低 址 妆 的 是 _SEHResgistration 指针 , 指 问 上 一 个 _SEHRegistration 结构 (该 结构 代表 相 
当 于 当前 框架 更 外 层 的 SEH 框架 ) 以 形成 链表 ; 

> 融 址 端的 是 SEHFrameHandler 图 数 指 针 , 指 癌 异 彰 处 理 实施 图 数 ,默认 十 
SEHCompilerSpecificHandler, 用 于 长 程 跳 转 等 操作 ,而 长 程 跳 转 的 目的 地 址 就 是 SEH 
_HANDLE 域 。 
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在 _SEHRegistration 的 外 围 还 扩展 了 其 他 的 数据 结构 ,包括 了 过 滤 函 数 指针 、 善 后 函数 
针 等 ,以 人 研判 本 框 染 是 否认 领 该 异常 以 及 怎样 善后 资源 等 。SEHCompilerSpecificHandler 
执行 时 会 首先 判断 这 个 框架 是 单个 全 局 SEH 框架 还 是 同时 包含 局 部 SEH 框架 . 
(1) 如 果 是 单个 全 局 SEH 框架 , 则 . 
> 调用 框架 的 过 滤 函 数 以 确认 是 否认 领 本 次 异常 ， 
> 如 采 认 领 则 首先 调用 所 有 内 层 SEH 域 的 善后 图 数 ,否则 继续 加 上 回溯 百 至 找到 认领 
本 次 异常 的 SEH 框架 ,步骤 同 前 ; 
> 如 果 认 领 则 执行 本 SEH 域 的 长 程 跳 转 。 
(2) 如 果 同 时 包含 局 部 SEH 框架 , 则 . 
> 从 后 回 前 调用 当前 全 局 SEH 框 涤 的 局 部 框架 栈 , 执 行 过 滤 晴 数 以 确认 是 否认 领 本 次 异 第 ， 
> 如 果 认 领 则 首先 调用 所 有 已 跨越 的 内 层 SEH 域 的 善后 函数 ,和 否则 继续 向 上 回溯 直至 
找到 认领 本 次 异 和 的 SEE 框架 ; 
> 如 果 当 前 全 局 节点 的 局 部 SEH 框架 栈 遍 历 完 也 没有 找到 能 处 理 当 前 异常 的 局 部 SEH 
框架 , 则 在 全 局 SEH 杠 避 队 列 中 辐 上 回溯 继续 寻找 ,步骤 同 前 ; 
> 若 找 到 则 执行 本 SEH 域 的 长 程 跳 转 。 
同时 在 栈 中 也 是 这 样 一 种 结构 ,也 会 通过 _SEHRegistration 指针 形成 链 式 结构 。 可 以 想 
象 ，SEHRegistration 结构 代表 了 一 个 全 局 SEH 框架 节点 ,其 前 一 个 节点 代表 更 外 一 层 的 全 
局 SEH 框架 。 而 对 于 局 部 髓 大 , _ SEHFrame ( _ SEHRegistration 代表 更 外 层 的 框架 ， 
_SEHRegistration 包含 _SEHFrame ) 则 代表 了 一 个 局 部 SEH 框架 ，SEHFrame 内 部 有 个 队列 ， 
存放 了 其 套 的 局 部 SEH 框架 (本 质 上 是 SCOPETABLE 数组 ,SCOPETABLE 结构 代表 局 部 
SEH 框架 )。 这 还 只 是 其 中 的 两 个 数据 结构 ,由 于 涉及 SEH 机 制 的 数据 结构 多 且 烦 琐 ,我 们 
在 这 里 不 详细 介绍 这 些 数据 结构 ,只 是 在 用 到 的 时 候 再 提 及 相关 内 容 。 
SEH 框架 的 跳 过 是 通过 SEH_HANDLE 机 制 实现 的 。_SEH_HANDLE 实质 上 是 个 宏 定 
义 ,具体 值 是 _SEH_FXCEPT(_SEH_STATIC_FILTER( 返 回 值 )) 。_SEH_STATIC_FILTER 
(返回 值 ) 作 为 _SEH_EXCEPT 的 参数 ,可 以 由 系统 来 定义 ,也 可 以 由 应 用 程序 目 己 定义 。 
Windows 定义 了 三 个 值 : 
> _SEH_CONTINUE_ EXECUTION :定义 为 - 1, 表示 忽略 本 次 异常 ;或 本 次 异常 已 经 
>_SEH_CONTINUE_SEARCH :定义 为 0, 表 示 本 框架 不 认领 本 次 异常 ,继续 向 上 回 济 
到 上 一 层 SEH 框架 。 
> _SEH_EXECUTE_HANDLER :定义 为 1, 表示 认领 本 次 异 第 ,并 实施 长 程 跳 转 , 即 执 
行 _SEH_EXCEPT 域 中 的 代码 ,也 是 _SEH_HANDLE 后 面 域 中 的 代码 。 
由 此 可 以 看 出 _SEH_HANDLE 起 着 过 滤 和 人 处理 异常 的 作用 。 这 里 要 强调 一 点 ,不 是 所 
有 的 异 贡 都 会 先进 入 _SEH_HANDLE 域 。 因 为 异常 发 生 后 ,首先 会 由 操作 系统 内 核 的 异常 
啊 应 图 效 进 行 异 稼 分 配 , 对 于 缺 页 等 假 异 第 会 由 底层 的 处 理 明 数 处理 , 而 且 如 采 进 程 处 于 被 
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调试 状态 ,异常 发 生 后 也 会 由 调试 右 完 接 省 异常 ,根本 轮 不 到 上 层 的 SEH 框架 来 处 理 , 只 有 
底层 和 调试 希 都 不 管 的 异常 才 会 由 SEH 框架 来 接 绾 。 这 些 情况 是 比较 常见 的 ,例如 我 们 在 
使 用 VC 6 调试 代码 的 时 候 , 一 旦 发 生 异 和 常会 完 在 VC 6 的 调试 窗口 中 中 汤 , 并 输出 当前 寄存 
货 等 上 下 文 , 根 本 轮 不 到 用 户 自 己 定义 的 异常 处 理 陋 数 来 接管 。 

综 上 所 述 ,SEH 是 一 个 比较 复杂 的 机 制 ,除了 全 局 和 局 部 SEH 框架 ,还 要 考虑 栈 展开 的 
问题 。 正 如 前 文 所 述 , 当 前 的 SEH 框架 必定 是 栈 帧 中 最 上 层 的 框架 ,或 者 说 是 队列 中 最 深 
的 框架 ,如 采 当 前 框架 不 能 解决 问题 , 那 就 要 癌 上 回溯 以 找到 能 解决 问题 的 框架 , 当 找 到 了 
并 且 也 把 问题 解决 了 ,那么 这 个 SEH 框架 也 就 完成 了 使 命 ,但 是 被 它 跳 过 去 的 那些 SEH 框 
涤 需 要 释放 事先 动态 申请 的 资源 ,否则 资源 会 溢出 。 男 外 假如 代码 在 执行 的 过 程 中 没有 刀 
到 异 凋 , 当 执 行 到 _SEH_END 位 置 的 时 候 , 也 需要 执行 当前 SEH 框架 的 善后 图 数 以 释放 资 
源 ,并 且 要 摘除 SEH 框架 ,这 既是 SEH 框架 的 要 求 , 也 是 编程 良好 的 习惯 。 

SEH 框 染 艇 套 到 代码 中 时 看 上 去 比较 简单 ,但 是 被 编译 右 编 译 后 会 生成 一 堆 代 码 “ 附 
着 "在 保护 域 代 码 的 周围 ,这 些 代 码 设 置 诸如 长 程 跳 转 地 址 等 一 些 初始 变量 ,以 便 异 常 啊 应 
函数 作出 相应 的 处 理 。 所 以 说 SEH 既是 Windows 基础 框架 ,也 是 编译 器 作用 的 产物 。 

从 高 层 视 角 来 看 ,SEH 编译 后 会 形成 三 轮 循环 ,如 图 9 一 5 所 示 。 


| 


第 一 轮 循 环 SEHSetUmp 


| 

| 

| ”BUF 中 保存 了 调用 
| 

ee ET 

| 地 址 ， 即 判断 EAX -……… 一 一 一 

| 


| 
| 
| 
| 
| 人 
本 SEHSetJmp 之 前 的 现场 
| 
| 
| 
| 


寄存 器 的 内 容 是 否 为 0 ..... 吡 转 地 址 
EAX==] | EAX==0 


| ES EP 


执行 处 理 域 设置 跳 转 环境 踪 转 
EAX=] 


| 

| | 
| 时 用 | 
| 、 IDT 中 的 KiTrapX CommonDispatchException | 
| 1 和 2 
| | | 
I 时 用 : 
\ 
| 第 二 轮 循环 KiDispatchException | 
| | 
| 
1 油 用 | 
| | 
| | 
| | 
| 
| 
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1) 第 一 轮 循环 

在 第 一 轮 循环 中 ,要 设置 两 部 分 内 容 : 

> 一 部 分 是 当前 域 的 SEH 框架 及 其 长 程 跳 转 的 统一 入 口 (_SEHCompilerSpecificHandler) 

等 参数 ,并 将 其 挂 入 ExceptionList 队列 ; 
> 男 一 部 分 是 通过 SEHSetJmp 设置 长 程 跳 转 缓冲 区 ,这 个 缓冲 区 包括 长 程 跳 转 的 返回 
地 址 .当前 堆栈 指针 等 ,这些 参数 保存 了 调用 长 程 跳 转 前 儿 的 现场 。 

这 里 的 返回 地 址 是 SEHSetJmp 的 返回 地 址 ,是 一 条 汇编 指令 , 即 调 用 SEHSetJmp 这 条 指 
令 的 下 一 条 。 编 译 需 将 此 处 的 逻辑 编译 为 一 个 判断 , 即 SEHSetJmp 的 返回 值 (注意 返回 地 址 
和 返回 值 的 不 同 , 返 回 地 址 代表 的 是 一 条 汇编 指令 ,返回 值 是 执行 完 函 数 后 EAX 寄存 胡 的 
内 容 ) 是 否 为 0, 为 0 就 设置 跳 转 环境 ,不 为 0 就 跳 转 到 处 理 域 (_SEH_HANDLE 域 中 的 内 
容 )。 返 回 值 为 0 就 是 第 一 轮 循 环 要 做 的 事情 (做 铺垫 ) ,不 为 0 就 是 第 二 轮 循 环 中 发 生 异 向 
时 要 做 的 事情 (实质 处 理 异 常 ) 。 

长 程 跳 转 缓冲 区 保存 在 SEH 框架 的 菜 个 域 中 ,而 旦 该 域 必须 是 授 历 ExceptionList 时 非 
党 容易 找到 的 。 可 以 看 出 ,第 一 轮 循环 就 是 为 SEH 做 铺垫 的 。 

2) 第 二 轮 循环 

SEH 框 染 的 保护 域 代码 被 编译 在 第 二 轮 循环 中 。 执 行 时 如 果 没 有 发 生 异 常 , 则 万 事 大 
吉 ,正常 结束 第 二 轮 循 环 并 执行 到 SEH_ END。 但 如 果 发 生 了 异常 , 则 系统 会 通过 底层 的 异 
常 分 发 函数 进行 处 理 , 中 途 竺 没有 调试 右 的 拦截 ,那么 异常 会 由 该 类 型 的 异常 分 发 汝 数 通过 
遍历 ExceptionList 队列 找到 能 够 处 理 该 类 异常 的 SEH 结构 ,并 通过 该 结构 找到 长 程 跳 转 组 
冲 区 做 长 程 跳 转 ,来 到 异常 处 理 的 真正 代码 区 ( 处理 域 ) ,也 就 是 第 一 轮 循环 中 SEHSetJmp 的 
返回 地 址 ,并 且 在 长 程 跳 转 函数 中 还 会 将 EAX 寄存 器 置 为 1 ,这 意味 着 此 时 SEHSetJmp 的 返 
器 值 为 1。 前 文 说 过 ,SEHSetJmp 的 返回 值 不 为 0 就 跳 转 到 处 理 域 。 

当然 这 个 代码 可 能 只 是 简单 地 获取 一 下 异常 码 或 者 优雅 地 终结 出 错 线程 ,也 可 能 是 更 
改 参 数 或 者 弹出 个 选择 框 等 ,但 不 管 怎样 毕竟 是 对 异常 进行 处 理 了 ,第 二 轮 循环 结束 。 

3) 第 三 轮 循环 

第 三 轮 循环 主要 是 调用 _SEHLeaveFrame 从 ExceptionList 摘除 当前 的 SEH 框架 ,这 就 是 
_SEH_END 的 事 了 。 


9.2 内 核 态 空间 的 结构 化 异 单 处 理 流 程 


本 节 我 们 来 分 析 下 在 内 核 态 空间 的 结构 化 异常 处 理 流程 。 

在 内 核 中 ,异常 和 中 断 没有 什么 区 别 ,其 分 发 机 制 也 大 至 相同。 就 像 中 断 有 中 断 服务 例 
程 (ISR) 一 样 ,异常 在 中 断 摘 述 符 表 (IDT) 中 也 有 相应 的 异常 响应 处 理 例 程 ,如 下 所 示 : 

> KiTrap0 :处 理 除数 为 过 异 负 ; 

KiTrap3 :处 理 通过 断 点 指令 int 0x3 实现 的 断 点 异 篆 ; 
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> KiTrap6 :处 理 非法 指令 异常 ; 
> KiTrap14 :处理 内 存 页 面 异常 ; 
> KiTrap16: 人 处 理 浮 点 指令 异常 。 
当然 还 有 其 他 种 类 的 异常 ,这 里 不 列举 那么 多 。 发 生 异 常 的 原因 主要 可 归 为 三 类 . 
> 执行 指令 失败 引起 的 异常 :比如 除数 为 0 访问 权限 不 足 、 页 面 映射 错误 等 ,这 种 异常 
情况 发 生 时 ,push 到 堆栈 中 的 是 失败 的 那 条 指令 的 地 址 ,用 意 是 异常 人 处理 完 毕 过 后 不 
要 放弃 转 而 再 执行 一 裔 原 指令 ,这 种 异常 也 是 我 们 最 常 遇 到 的 。 

> int 0x3 断 点 异常 :这 种 情况 发 生 时 push 到 堆栈 中 的 是 断 点 指令 的 下 一 条 指令 的 地 
址 ,这 是 我 们 在 调试 程序 时 最 常 遇 到 的 。 

> 严重 出 错 异 常 :这 种 异常 是 无 法 恢复 的 ,例如 BSOD( Blue Screen Of Death ) 。 

在 第 3 章 中 我 们 讲 过 , 自 陷 .异常 .中断 发 生 时 都 会 在 内 核 态 推 栈 中 形成 一 个 自 陷 框架 
TRAP_ FRAME ,里 面包 含 当 前 指令 指针 EIP 等 现场 上 下 文 , 其 实 刚刚 提 到 的 push 到 堆栈 中 
的 指令 地 址 就 相当 于 EIP ,异常 处 理 完毕 就 会 执行 。 

IDT 中 描述 了 异常 啊 应 处 理 例 程 ,其 中 前 30 个 都 是 异常 处 理 例 程 ,例如 KiTrap0 等 。 接 
下 来 我 们 以 KiTrap0 为 例 来 看 下 异常 处 理 流程 ,如 图 9 一 6 所 示 。 

-一 一 TRAP PROLOG 共 同 作用 ， 


在 内 核 态 堆栈 上 形成 自 陷 框架 


CommonDispatchException 
Jmp Kel386EolHelper 


9-6 KiTrap0 处 理 异常 的 流程 


1) 获取 异常 处 理 例 程 

0 号 异常 发 生 时 ,CPU 根据 异常 的 种 类 从 IDT 中 获取 异常 处 理 例 程 ( KiTrap0 ) 。 

2) 形成 异常 处 理 自 陷 框 架 和 SEH 框架 栈 

从 KiTrap0 进来 时 ,在 CPU 和 序言 TRAP_PROLOG 的 共同 作用 下 形成 了 自 陷 框架 
TRAP_ FRAME ,这 里 的 自 陷 框 架 与 系统 调用 时 的 自 陷 框架 大 小 完全 相同 ,结构 内 容 上 也 基本 
一 致 ,因为 如 果 不 一 致 ,序言 和 尾声 就 不 能 通用 了 ,并 且 有 可 能 会 发 生 堆 栈 无 法 恢复 和 配 和 平 
的 问题 ,这 是 绝对 不 允许 的 。 自 陷 框 架 的 结构 在 前 文中 已 经 有 所 描述 ,在 框架 中 序言 部 分 会 
把 线程 的 ExceptionList 指针 压 栈 ,但 如 果 在 异 稼 处 理 的 过 程 中 又 发 生 了 异 稼 , 即 发 生 衣 套 异 
常 , 则 会 再 生成 一 个 自 陷 框 架 , 并 把 当前 的 ExceptionList 指针 压 栈 ,而 每 一 个 ExceptionList 指 
针 都 指 问 本 次 异常 发 生 时 对 应 的 SEH 框架 ,这 样 执行 下 来 便 形 成 了 SEH 框架 队列 ,或 者 叫 
SEH 框架 栈 。 

3 ) 执行 异常 分 发 公共 入 口 消 数 

之 后 执行 异 浓 分 发 的 公共 人 口 图 数 CommonDispatchException ,注意 该 图 数 是 不 返回 的 ， 


由 CPU 和 序言 


执行 


泛 
Bd 
上 
2 
所 
室 


通过 TRAP EPILOG 


完成 从 寞 弟 的 返回 
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它 用 来 过 有 历 ExceptionList 以 找 出 能 处 理 当 前 异常 的 SEH 框架 并 进行 异常 处 理 。 如 果 处 理 成 
功 则 通过 一 个 Jmp 跳 转 到 Kei386EoiHelper 函数 中 ,这 个 函数 通过 寄存 带 传 递 参 数 , 执 行 尾 
声 操作 恢复 堆栈 并 从 异常 处 理 返 回 。 执 行 到 这 里 意味 着 异常 处 理 已 经 完成 了 , 接 下 来 需要 
执行 日 陷 框 架 中 的 EIP 指令 了 ,EIP 指令 或 者 是 出 错 指令 本 号 ,或 者 是 出 错 指令 的 下 一 条 。 

我 们 再 以 KiTrap14 为 例 来 讲述 内 存 员 面 异常 的 处 理 流程 ,以 便 加 深 对 SEH 机 制 的 理 
解 ,如 图 9 -7 所 示 。 


措 各 分 发 
时 用 先 执 行 序言 : 
Ap TRAP PROLOG 
先 处 理 页 面 异常 ， 将 出 错 代码 、 
异常 地 址 、 先 前 模式 、 自 陷 框 架 
. 等 作为 参数 传递 进去 
问 串 未 和 解决 


cc 


当 KiDispatchnException 分 发 处 理 
完 异 常 ， 相 当 于 问题 已 解决 


mp KiDispatchException pe 


问题 已 解决 


Jmp kel38oEolHelper 
图 9-7 KiTrapl4 处 理 异 常 的 流程 


当 缺 页 异常 发 生 时 ,进程 找 不 到 对 应 虚拟 地 址 的 物理 内 存 页 面 ,或 者 为 缺 页 异常 ,或 者 
为 页 面 无 映射 ,前 痢 看 似 异 第 实则 正常 ,而 后 者 则 是 真正 的 异常 。 当 缺 页 寞 第 发 生 时 进入 异 
第 分 发 例 程 并 进入 KiTrap14 ,KiTrap14 首先 执行 序言 操作 TRAP_PROLOG 以 建立 自 隐 框 染 
等 。 然 后 调用 页 面 异 稼 处 理 图 数 MmAccessFault ,之 所 以 先 调用 它 ,就 是 因为 缺 页 异常 大 部 
分 是 正和 的 ,是 可 以 通过 内 存 倒 换 机 制 解决 的 ,这 也 是 Windows 内 存 管 理 的 固有 机 制 。 
MmAccessFault 以 出 错 代 码 . 异 弟 地 址 . 完 前 模式 等 为 参数 比如 异常 地 址 的 实 参 就 是 执行 出 
错 的 那 条 指令 的 地 址 ,这 个 地 址 是 由 CR2 寄存 各 保 存 的 ,如 图 9 一 8 所 示 。 
> 如 果 在 MmAccessFault 的 执行 过 程 中 异常 解决 了 , 束 直 接 跳 转 到 Kei3 86EoiHelper , 这 
个 函数 执行 APC 投递 和 尾声 TRAP_EPILOG 消除 自 陷 框架 并 从 异常 处 理 中 返回 。 返 
回 后 要 么 跳 过 出 错 地址 ,接着 执行 下 一 跳 指 令 ; 要 么 从 出 错 地 址 开始 执行 ,这 就 得 由 
异常 的 性 质 种 类 决定 了 。 
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低 址 出 错 代码 


引起 异常 的 地 址 网 用 


TRAP FRAME 由 TRAP PROLOG 生 成 
局 址 


内 核 态 空间 堆栈 
9 一 8 KiTrapl4 形成 的 目 陷 框 架 和 MmAccessFault 的 调用 框架 


> 如 果 在 上 述 过 程 中 异常 未 解决 i 则 跳 转 到 AccessFail 指令 模块 处 理 真 正 的 异 弟 。 上 自 先 


调用 异 稼 处 理 的 公共 入 口 CommonDispatchException, 这 个 人 口 痕 数 会 和 完 在 内 核 态 堆 
栈 中 构筑 一 个 异常 记录 块 ExceptionRecord ,用 以 记录 本 次 异常 的 信息 。 
异常 记录 块 数 据 结 构 中 各 个 域 如 图 9 一 9 所 示 ,其 中 : 


EXCEPTION CODE 
ExceptionFlags 


低 址 


堆栈 生 
长 方 问 


言 址 “| 门 核 原 有 堆栈 数据 


内 核 态 空间 堆栈 
9 一 9 CommonDispatchException 构筑 的 异常 记录 块 数据 结构 


> EXCEPTION_CODE :表示 寞 弟 代 人 码 , 例 如 KI_EXCEPTION_ACCESS_VIOLATION 表 
示 页 面 访 问 异 稼 ; 

了 xceptionRecord :该 指针 指 问 上 一 个 ExceptionRecord 绪 构 , 即 前 一 次 的 异常 记录 块 ; 

> ExceptionAddress: 表 示 本 次 异 沼 结束 后 的 返回 地 址 , 即 目 陶 框 染 中 的 EIP 指令 指针 ， 
这 是 在 执行 序言 TRAP_PROLOG 的 时 候 指 定 的 ,其 实 就 是 出 错 指令 地 址 或 者 是 其 下 
一 条 指令 地 址 ; 

> ExceptionInformation: 记 录 了 异常 的 其 他 扩展 信息 ; 

> NumberParameters: ExceptionInformation 的 有 效 数据 的 项 数 ， 

构筑 完 异 稼 记录 块 后 ,要 调用 内 核 态 的 异 稼 处 理 的 分 发 人 口 图 数 KiDispatchException。 


是 在 调用 之 前 要 将 异 毅 记 录 块 的 地 址 .先前 模式 (用 户 模式 还 是 内 核 模 式 ) 和 堆栈 上 的 目 
框架 指针 等 作为 参数 压 人 栈 中 。 


下 面 来 看 KiDispatchException 的 执行 流程 ,如 图 9 一 10 所 示 , 其 执行 步骤 如 下 : 
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内 校 态 空间 异 


第 处 理 流 往 处 理 不 成 功 ， 第 二 次 机 会 


判断 是 否 为 调试 状态 [过 = 调试 程序 接管 进程 


周 试 程序 不 能 


第 一 次 机 会 的 处 理 流 程 


RtlDispatchException 
处 理 成 功 
第 二 次 也 未 处 理 成 功 


人 (heckEx 区 1 


图 9-10 KipDispatchException 在 内 核 态 空间 的 执行 流程 


(1) KiDispatchException 首先 调用 KeTrapFrameToContext 将 内 核 态 堆栈 中 的 目 隐 框架 转 
化 成 上 下 文 结构 CONTEXT ,并 以 CONTEXT 为 参数 调用 KiDebugRoutine ,判断 当前 是 否 为 调 

> 如 采 是 调试 状态 , 则 由 调试 程序 接管 异常 进程 (前 文 有 体现 ,调试 程序 优先 级 高 于 异 

党 处 理 例 程 ) ; 
> 如 果 不 是 调试 状态 , 则 调用 RtDispatchException 遍历 ExceptionList 以 找到 能 处 理 该 异 
常 的 SEH 框架 来 进行 处 理 。 

(2) 如 采 RtlDispatchException 人 处理 成 功 , 则 意味 看 已 经 找到 了 能 处 理 当 前 异常 的 SEH 
框架 ,继而 调用 KeContextTolrapFrame 将 传 给 RtlDispatchException 的 CONTEXT 冉 转换 
TrapFrame。 之 所 以 要 这 样 转 来 转 去 ,是 因为 在 异常 人 处理 的 过 程 中 CONTEXT 内 部 的 值 可 能 
会 发 生 改变 ,例如 EIP 指令 指针 可 能 会 变 成 出 错 指令 的 下 一 条 ,因此 CONTEXT 必须 做 一 次 
蝎 新 。 调 用 完成 ,处 理 函 数 也 就 返回 了 ,至 此 本 异常 处 理 流程 结束 。 

(3) 如 果 RtlDispatchException 人 处理 不 成 功 , 则 系统 还 会 由 给 一 次 机 会 ,会 重新 判断 是 否 
为 调试 状态 , 即 调 用 KiDebugRoutine, 当 第 二 次 机 会 的 处 理 流程 走 到 RtlDispatchException 
时 ,能 处 理 成 功 一 切 好 说 ,不 能 处 理 成 功 则 证 明 本 异 篆 “无 可 救 欧 ” 了 ,应 该 执行 


舍 ， 则 调用 
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KeBugCheckEx 以 显示 出 错 信 息 并 将 现场 转 储 为 Dump 文件 。 因 为 是 在 内 核 态 出 现 的 异 稼 ， 
通常 会 出 现 “ 死 亡 蓝 屏 ”( Blue Screen Of Death ,BSOD ) 。 

从 以 上 过 程 也 可 以 看 出 ,异常 处 理 的 核心 就 是 对 RtlDispatchException 的 调用 , 即 从 
ExceptionList 队列 中 找到 能 处 理 当 前 异常 的 SEH 框架 。 对 于 RtDispatchException 的 调用 有 
三 种 结 采 : 

> 该 异 弟 被 某 个 SEH 框架 认领 并 实施 长 程 跳 转 (_SEHCompilerSpecificHandler) ,一 旦 实 

施 了 长 程 跳 转 ,被 跨越 的 那些 SEH 框架 需要 执行 栈 展 开 , 因 此 长 程 跳 转 之 前 要 先进 
行 栈 展开 处 理 。 一 旦 实施 了 长 程 跳 转 ， RtlDispatchkxception 是 不 会 返回 的 。 

> 该 异 肖 被 菏 个 SEH 框架 认领 ,但 不 需要 做 长 程 跳 转 ,只 需要 执行 被 越过 SEH 框架 的 

善后 田 数 , 即 栈 展开 果 数 ,之 后 从 RtlDispatchException 返回 以 继续 执行 原 指 令 。 

> 所 有 SEH 框架 都 拒绝 认领 该 异常 , 则 RtlDispatchException 返回 失败 , 接 下 来 或 者 进行 

第 二 次 尝试 ,或 者 直接 出 现 BSOD。 

其 实 RtlDispatchException 的 执行 过 程 非 常 简 单 :获取 ExceptionList 队列 ,从 后 回 前 遍历 
SEH 框架 (EXCEPTION_REGISTRATION_RECORD 结构 ,对 应 SEH 的 _SEHResistration 绪 
构 ), 针对 每 个 框架 执行 RtpExecuteHandlerForException 来 进行 尝试 。 这 里 要 注意 
ExceptionList 中 的 每 个 节点 是 一 个 全 局 SEH 框架 ,该 框架 可 能 是 单独 一 个 框架 ,也 可 能 是 一 
个 框架 栈 , 如 果 是 框架 栈 则 一 定 是 个 局 部 框架 栈 。 

RtlpExecuteHandlerF orException 可 能 有 以 下 几 种 尝试 结果 . 

> 不 予 认领 继 续 执行 :此 时 应 该 同上 回调 去 答 试 当前 SEH 框架 的 上 一 个 框架 , 即 更 外 层 


的 SEH 框架 。 

> 认领 了 但 不 需要 做 长 程 跳 转 :这 说 明 问 题 已 经 解决 ,该 异常 可 以 忽略 ,继续 执行 当前 
i 

> 发 生 骨 套 异常 :在 异常 处 理 过 程 中 叉 发 生 了 寞 第, 此 时 要 先 处 理 后 面 发 生 的 这 个 
异 第 。 


我 们 再 来 下 钻 一 下 RtlpExecuteHandlerForException 的 执行 过 程 。 

RtlpExecuteHandlerForException 将 RHpExceptionProtector 困 数 指针 赋值 给 EDX 寄存 天 ,并 中 
转 到 RtlpExecuteHandler 执行 , 哺 数 执行 的 参数 与 上 一 层 的 RtlpExecuteHandlerForException 一 致 。 
不 过 如 条 不 执行 RtlpExecuteHandlerForException 而 是 执行 RHpExecuteHandlerForUnwind , 那 
么 EDX 寄存 太 会 被 赋值 为 RitlpUnwindProtector 并 跳 转 到 RtlpExecuteHandler 执行 ,也 了 就 是 说 
RtlpExecuteHandler 有 两 种 进入 的 场景 ,如 图 9 一 11 所 示 。 

RtlpExecuteHandler 这 个 函数 最 终 要 调用 由 RtlpExecuteHandlerForException 传 下 来 的 参 
关 ExceptionHandler 晓 数 , 这 是 由 用 户 设 置 的 异常 处 理 呆 数 ,因此 RtlpkxecuteHandler 本 
质 上 还 是 对 用 户 设置 的 异常 处 理 孙 数 的 调用 ,对 于 一 般 类 型 的 SEH 框架 这 个 人 处理 靖 数 就 是 
SEHFrameHandler 。 
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RtlpExecuteHandlerForException 


= 
| EDAX: RtlpExceptionProtector RtlpExecuteHandler 
J 


恒 9-11 调用 RtlpExecuteHandler 的 两 种 场景 


这 里 要 插播 一 下 :RtlpExecuteHandler 会 在 内 核 态 堆 栈 中 生成 一 个 异 肖 处理“ 保护 框 
架 ”, 因 为 在 调用 SEHFrameHandler 的 过 程 中 也 有 可 能 发 生 新 的 异 稼 , 即 发 生 航 套 异 稼 ,六 面 
的 异 稼 还 设 处 理 完 呢 ,这 又 发 生 了 异 稼 ,这 是 多 么 糟糕 的 事情 。 不 过 俩 多 了 不 愁 ,既然 又 发 
生 了 异常 那 就 先 从 新 的 当前 异常 开始 处 理 吧 ,这 个 处 理 的 依据 就 是 保护 框架 ,人 处理 的 路 线 还 
是 从 RtDispatchException 开始 ,这 又 是 束 悉 的 套路 了 。 当 然 , 如 果 在 执行 SEHFrameHandler 
的 过 程 中 没有 发 生 新 的 异 第 ,那么 这 个 保护 框 染 也 是 做 了 一 回 有 备 无 患 的 “市 刀 侍 卫 ”， 
RtlpExecuteHandler 在 返回 的 过 程 中 会 把 它 删除 的 。 

“保护 框架 "的 处 理 师 数 就 是 RtlpExceptionProtector 或 RtpUnwindProtector ,但 是 它们 并 
不 实质 处 理 新 发 生 的 异常 ,只 是 返回 一 个 值 表明 发 生 了 迄 套 异常 。 

回 到 SEHFrameHandler 图 数 , 这 才 是 真正 处 理 异 党 的 实体 。SEHFrameHandler 首先 会 判 
断 这 是 栈 展开 还 是 异常 处 理 ; 

> 如 果 是 栈 展 开 , 则 执行 SEHLocalUnwind; 

> 如 果 是 异常 处 理 , 则 遍历 搜索 能 认领 和 处 理 本 次 异常 的 SEH 框架 。 

注意 ,这 里 遍历 搜索 的 是 当前 某 个 全 局 SEH 框架 的 局 部 框架 栈 , 直到 搜索 到 符合 的 
SEH 框架 或 者 搜索 完成 也 设 找 到 就 结束 明 历 。 明 历时 执行 当前 局 部 框 丰 的 过 小 晒 数 , 巾 过 
小 函数 判断 是 否 处 理 本 次 异常 ,处 理 本 次 异常 的 时 候 则 执行 SEHCallHandler 困 数 。 

SEHFrameHandler 的 执行 流程 如 图 9 一 12 所 示 。 


SEHFrameHandler SEH CONTINUE EXECUTION? 
栈 展开 异常 处 理 


返回 ， 继 续 执行 


先 定 当前 信 局 框 起 
SEHLocalUnwind ea ----- SEHFilter SEH EXECUTE HANDLER? 
| 下 是 上 ， OB 
SEHCallHandler 


SEH_CONTINUE_SEARCH? 


继续 遍历 查找 
图 9 一 12 ”SEHFrameHandler 执行 流程 
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SEHFilter 是 当前 的 全 局 SEH 框架 中 的 局 部 SEH 框架 栈 里 每 个 局 部 SEH 框 染 所 携 币 的 
过 滤 函 数 。 我 们 在 前 文 说 过 ,全 局 SEH 框架 在 ExceptionList 队列 中 ,每 个 线程 都 有 这 样 一 个 
队列 ,这 个 队列 中 的 每 个 元 素 都 代表 一 个 全 局 SEH 框架 ,因为 是 全 局 的 ,或 者 说 是 由 层 层 函 
数 调用 形成 的 ,所 以 它们 也 会 在 堆栈 中 出 现 并 形成 栈 链 。 局 部 SEH 框架 则 不 是 由 函数 层 层 
调用 形成 的 ,而 是 在 一 段 代码 中 构 套 形成 的 ,因此 无 法 在 堆栈 中 形成 栈 链 ,因而 也 就 不 能 在 
ExceptionList 中 体现 ,只 好 采用 另 一 个 队列 来 存放 ,并 且 这 个 队列 也 是 局 部 的 ,是 每 个 全 局 
SEH 框架 所 独 有 的 ,如 图 9 一 13 所 示 。 当 然 也 不 是 每 个 全 局 SEH 框架 都 有 局 部 SEH 框架 
栈 , 有 局 部 框架 栈 的 还 是 少数 ,因为 我 们 在 使 用 "try-cateh” 框 架 时 很 少 采用 级 套 形式 。 


ExceptionList 全 局 SEH 框 架 全 局 SEH 框 染 


局 部 SEH 框 加 
局 部 SEH 框 架 


9-13 全 局 SEH 框架 与 局 部 SEH 框架 


SEHCallHandler 则 是 真正 实施 长 程 趾 转 的 函数 ,执行 这 个 函数 ,SEHFrameHandler 就 
不 返回 了 。SEHCallHandler 的 执行 包含 了 全 局 栈 展 开局 部 栈 展开 和 长 程 跳 转 三 部 分 : 

> 执行 SEHGlobalUnwind 进行 全 局 栈 展开 :所 请 栈 展开 就 是 执行 框 染 的 善后 限 数 以 释 
放 资 源 , 善 后 图 数 就 是 前 文 提 到 的 RtlpExecuteHandlerForUnwind。 在 这 一 部 分 执行 
ExceptionList 中 位 于 当前 选择 的 全 局 SEH 框架 之 前 的 所 有 SEH 框架 的 展开 ( 资源 释 
放 )。 在 执行 过 滤 了 哺 数 的 时 候 会 发 生 框 染 跨越 现象 ,这 是 由 于 前 面 的 框架 处 理 不 了 当 
前 的 异常 ,因此 也 只 有 在 执行 过 滤 图 数 的 时 候 才 有 可 能 发 生 框 架 跨越 ,也 才 有 可 能 
行 栈 展开 曙 数 。 

> 执行 SEHLocalUnwind 进行 局 部 栈 展开 :执行 当前 全 局 SEH 框架 的 局 部 SEH 框架 队 
列 之 前 的 所 有 局 部 框架 的 展开 ( 资源 释放 ) 。 

> 执行 框架 的 异常 处 理 函 数 进行 长 程 跳 转 : 即 执行 SEHCompilerSpecificHandler 痕 数 ,这 
个 胃 数 是 不 返回 的 。 


9.3 ”用 户 态 空间 的 结构 化 异常 处 理 流程 


前 面 的 章节 讲述 了 在 内 核 态 空间 中 的 结构 化 异常 处 理 流程 ,本 节 我 们 介绍 在 用 户 态 空 
间 的 结构 化 异常 处 理 。 用 户 态 空间 的 异常 处 理 流程 与 内 核 态 空间 的 大 臻 相同, 都 是 裔 历 
ExceptionList 以 寻找 能 够 处 理 当 前 异常 的 SEH 框架 ,但 是 这 里 的 ExceptionList 与 内 核 态 空 
间 所 说 的 ExceptionList 不 是 同一 个 。 内 核 态 空间 的 ExceptionList 是 个 全 局 列表 ,是 KPCR 数 
据 结 构 中 第 一 个 域 (线程 信息 块 NT_TIB 结构 ) 的 第 一 个 元 素 所 指 回 的 ExceptionList ,并且 由 
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于 是 在 内 核 态 空间 ,该 列表 全 局 只 有 一 个 (每 个 处 理 咒 有 一 个 ) ,如 图 9 一 14 所 示 。 


kd> dt _KkPCR kd>DT _ NT_ TIB 
nt!_KPCR nt!_NT_TIB 
+0Ox000 NtTib :_NT_TIB +Ox000 ExceptionList  : Ptr32 EXCEPTION REGISTRATION RECORD 
+0x01c SelfPer : Ptr32 KPCR +0x004 StackBase : Ptr32 Void 
+0x020 Prcb : Ptr32 KPRCB +Ox008 StackLimit : Ptr32 Void 
+0Ox024 Irqgl ; UChar +Ox00c SubSystemTib :Ptr32 Void 
+0x028 IRR : Uint4B +0x010 FiberData : Ptr32 Void 
+Ox02c IrrActive : Uint4B +0Ox010 Version : Uint4B 
+0x030 IDR : Uint4B +Ox014 ArbitraryUserPointer : Ptr32 Void 


KPCR 数据 结构 中 的 ExceptionList 


而 用 户 态 空间 的 ExceptionList 则 是 TEB 数据 结构 (如 图 9 一 15 所 示 ) 中 第 一 个 域 (NT_ 
TIB 结构 ) 的 第 一 个 元 素 所 指 回 的 列表 ,是 在 用 户 态 空间 的 队列 ,并 且 每 个 线程 都 有 一 个 这 
样 的 队列 。 在 系统 中 有 多 少 个 用 户 态 线程 ,就 有 多 少 个 这 样 的 队列 。 
typedef struct TEB 
{ 
NI TIB NtTib; 
PVOID EnvironmentPointer; 
CLIENT ID ClientId; 
PVOID ActiveRpcHandle; 
PVOID ThreadLocalSsStoragePointer; 
PPEB ProcessEnvironmentBlock; 


ULONG LastErrorValue: 
ULONG CountOfOwnedCriticalSections; 


图 9 一 15 ”TEB 数据 结构 


FS 寄存 硕 在 用 户 态 空间 指 回 当前 线程 的 TEB 结构 ,在 内 核 态 空间 则 指 回 KPCR 结构 ， 
而 且 ExceptionList 都 是 TEB 或 者 KPCR 数据 结构 的 第 一 个 域 的 第 一 个 元 素 , 因 此 无 论 是 在 
用 户 态 空间 还 是 内 核 态 空间 ,获取 ExceptionList 的 方式 都 是 一 样 的 ,这 也 为 结构 化 异常 处 理 
提供 了 很 大 的 便利 。 

前 文 讲 过 , 当 异 和 常 发 生 时 ,内 核 异 常 分 发 例 程 自 先 根据 异常 类 型 调用 诸如 KiTrapX 这 样 的 
函数 ,KiTrapX 会 先 判 断 这 些 异常 是 真 异常 还 是 假 异常 并 进行 相应 处 理 ( 例如 MmAccessFault 
处 理 内 存 换 页 异 第 ) ,如 采 处 理 完了 异 凋 还 未 解决 , 那 就 证 明 这 是 真 的 异常 了 ,就 会 调用 异 背 处 
理 的 公共 入 口 果 数 CommonDispatchException ,再 进入 KiDispatchException 进行 实质 异常 处 理 。 
处 理 也 分 为 用 户 态 的 和 内 核 态 的 ,并 且 处 理 流程 就 此 分 又 。 针 对 用 户 态 的 异常 处 理 的 主要 思 
想 也 是 给 予 两 次 尝试 机 会 。 

(1) 第 一 次 尝试 机 会 

> 调用 KiDebugRoutine 交 由 内 核 态 空 间 调 试 程序 处 理 。 

e。 如 有 果 存 在 内 核 调 试 程序 并 有 旦 调试 程序 也 解决 了 本 次 异常 , 则 跳 转 到 
KeContextToTrapFrame 国 数 ,并 将 上 和 下文 CONTEXT 转换 为 目 陷 框架 TrapFrame( 更 
新 发 生 异 滑 时 用 户 态 空间 某 些 寄存 器 的 值 ) ,图 数 KiDispatchException 返回 。 

。 如 采 不 存在 内 核 调 试 程序 或 调试 程序 未 能 解决 本 次 异常 ,会 转 而 笠 试 调用 用 户 态 
空间 调试 程序 DbgkForwardException。 如 果 用 户 态 空间 调试 程序 能 解决 异常 , 则 
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KiDispatchException 返回 ; 奢 不 能 解决 该 异常 , 则 开始 调用 用 户 态 空间 的 异 常 处 理 
-J 态 空 间 的 SEH。 
> 在 调用 用 户 态 空间 SEH 之 前 先 设置 好 用 户 态 空间 堆栈 ,为 回 到 用 户 态 空间 去 处 理 异 
律 做 准备 。 这 里 要 注意 ,我 们 处 理 异常 的 时 候 一 下 都 在 内 核 态 执行 操作 ,只 有 需要 在 
用 户 态 处 理 异常 的 时 候 , 才 会 像 APC 处 理 一 样 先 安排 好 用 户 态 空间 堆栈 , 髓 伺机 返 
回 用 户 态 空间 。 
。 自 和 完 在 用 户 态 空间 堆栈 构筑 一 个 CONTEXT 数据 结构 和 一 个 EXCEPTION _ 
RECORD 数据 结构 ,并 将 这 两 个 数据 结构 的 地 址 压 入 用 户 态 堆栈 ,如 图 9 一 16 所 
示 。 其 中 ,CONTEXT 即 为 之 前 通过 KeTrapFrameToContext 生 成 的 数据 结构 ,表示 
异 稼 发 生 时 的 各 寄存 天 值 ;EXCEPTION_RECORD 是 从 KiDispatchException 传 下 来 
的 参数 ,表示 当前 异 第 的 记录 块 。 


低 址 ExceptionRecord 的 地 址 


ExceptionRecord 
堆栈 生 
医 方 品 


CONTEXTL 


高 直 空间 堆栈 原 有 数据 
用 户 态 空间 堆栈 
9-16 第 一 次 尝试 中 对 用 户 态 空 间 堆 栈 的 修改 


e 完成 了 用 户 态 空间 堆栈 的 修改 后 ,将 新 的 堆栈 指针 的 值 (ExceptionRecord 地 址 所 
在 位 置 ) 和 堆栈 基 址 (KGDT_R3_DATA ) 写 人 内 核 态 空间 堆栈 的 目 陷 框架 中 ， 
KiSSToTrapFrame .KiEspToTrapFrame 这 两 个 图 数 分 别 完 成 目 陷 框架 SS 和 ESP 位 
置 的 更 新 与 人 。 
将 内 核 态 堆栈 自 陷 框架 中 用 户 态 空间 返回 地 址 (EIP 位 置 ) 更 改 为 ntdll. dll 中 的 
KeUserExceptionDispatcher ,这 是 用 户 态 空 间 SEH 的 总 人 口 ,也 是 为 回 到 用 户 态 空 
间 做 的 最 重要 的 一 步 准备 ,之 前 在 用 户 态 空间 堆栈 安排 的 两 个 数据 结构 
CONTEXT 和 ExceptionRecord 是 该 总 入 口 函 数 的 参数 ， 

至 此 ,返回 用 户 态 空间 的 准备 工作 就 完成 了 ,线程 返回 用 户 态 空间 ,一 返回 就 开始 执行 事 
先 铺设 的 KeUserExceptionDispatcher。 KeUserExceptionDispatcher 遍历 TEB 中 的 ExceptionList, 
如 果 有 能 够 处 理 当 前 异 稼 的 SEH 框架 则 处 理 当 前 异常 ;大 ExceptionList 中 也 没有 能 人 
稼 的 SEH 框架 ,那么 就 要 执行 第 二 次 尝试 了 :调用 ZwRaiseException 引起 一 次 “ 软 异 党”, 这 是 
故意 由 软件 方式 引起 的 异 第 ,从 而 使 之 再 次 进入 异 帝 处 理 的 公共 入口 CommonDispatchException 。 

(2) 第 二 次 符 试 机 会 

从 C ommonDispatchkxception 进来 后 ,由 于 是 “二 进 宫 ”, 再 次 调用 DbskForwardException ， 
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答 试 用 户 态 空间 调试 程序 是 否 能 够 处 理 当 前 异 第 : 
如 果 能 处 理 ， 则 万 事 皆 休 , KiDispatchkxception 返回 ，; 
> 如 果 不 ` 能 处 理 ， 则 调用 ZwTerminateProcess 结束 当 前 进程 ， 并 且 通 知 环境 子 系统 进程 
csrss. exe 出 错 , 最 后 调用 KeBugCheckEx 显示 进程 出 错 信息 (如 图 9 -17 所 示 ) ,并 转 
储 异 津 发 生 时 的 内 存 镜像 。 
-口上 | 


| Windows 主 进程 (Rundll32) 已 停止 工作 
Windows 可 以 联机 检查 该 问题 的 解决 方案 。 


兴 联机 检查 解决 方案 并 关闭 该 程序 
| 村 看 问题 详细 信息 


9 一 17 esrss. exe 弹出 的 错误 提示 框 


图 9 一 18 是 KiDispatchException 在 用 户 态 空间 的 执行 流程 ,我 们 可 以 对 比 其 在 内 核 空间 
的 执行 流程 来 理解 。 


KiDispatchException 
KeTrapFrame ToContext 


判断 是 内 术 态 空间 异常 


还 是 用 户 态 空 间 异常 
内 械 态 空间 用 户 态 空间 


内 术 访 空间 异 用 户 老 态 空间 异 
第 处 理 流 程 过 处 理 流 程 


第 一 次 机 会 的 处 理 流程 


区 给 内 核 态 空间 调试 程序 处 
理 : KiDebugRoutine 


| 
| 
| 遇 历 TEB 的 ExeeptionList 以 找到 
处 理 成 功 处 理 不 成 功 能 够 处 理 当前 异常 的 框架 
| 
| 


| 
| 
| 
| 
| 
| 
泽 证 用 户 态 室 间 调试 程序 : | | 
ALTEH DbgkForwardException | 
处 理 成 切 处 理 成 功 处 理 不 成 功 | 
处 理 不 成 | 
| 
| 
| 
| | 
| 


布局 用 户 态 空间 堆栈 ， 更 改 
内 核 态 空间 自 陷 框架 相关 值 


i 通过 NtRaiseException 
通过 NtContinue 返 回 内 核 坊 ete Eh 
引起 一 次 软 异 常 


KiDispatchException 人 返回 


从 内 核 意 空间 返回 用 户 态 空间 


莹 试用 尸 态 室 间 调试 程 厅 : 


DbekForwardException 


KiDispatchException 不 返 


回 ， 继续 从 异常 发 生 人 处 执行 


处 理 不 成 功 Pe 


结束 进程 ， 转 人 赃 内 存 KiDispatchException 返 回 


图 9 一 18 ”KiDispatchException 在 用 户 态 空间 的 执行 流程 


142 


YY 第 9 章 结构 化 异常 处 理 


下 面 介绍 一 下 向 量化 异常 处 理 机 制 。 

KeUserExceptionDispatcher 作为 用 户 态 空间 SEH 的 总 入 口 ， 首先 会 执行 回 量 式 异 篆 处 理 
(VEH ) 框 架 . RtlpExecuteVectoredExceptionHandlers。 这 种 异 稼 处 理 框 架 在 每 个 进程 中 都 有 
一 个 , 挂 载 在 RtlpVectoredExceptionHead 链表 中 ,这 个 链表 的 元 素 结 构 是 这 样 的 . 


typedef struct VECTORED LIST / /链表 结构 

{ 
_VECTORED LIST* pNext; / /链表 的 向 后 指针 
_VECTORED LIST* pPrevious; // 链 表 的 向 前 指针 


DWORD dwMark: // 一 个 有 效 标 记 
PVECTORED EXCEPTION HANDLER VectoredFunction;  // 加 密 后 的 异常 处 理 函 数 指针 
}VECTORED LIST, * PVECTORED LIST 


当 PEB 的 EnvironmentUpdateCount 标志 位 为 0 的 时 候 ， 异 稼 发 生 时 会 检查 VEH 链表 并 
执行 各 量化 异 第 人 处理 ;否则 ,VEH 机 制定 失效 的 。 

VEH 是 基于 进程 的 异常 处 理 机 制 , 使 用 Windows API( AddVectoredExceptionHandler ) 进 
行 注 册 , 可 以 进行 多 次 注册 以 形成 VEH 结构 体 双向 链表 ( SEH 结构 体 链表 是 单 回 的 ) ,这 些 
VEH 结构 体 保存 在 进程 堆 中 ( SEH 结构 体 你 存 于 栈 中 ) ,而 且 注 册 时 可 以 月 由 指定 VEH 第 
构 体 在 链表 中 的 位 置 ,而 不 是 后 注册 的 先 执行 ,因此 将 异常 处 理 的 优先 权 完 全 交 给 了 开发 
者 。 更 重要 的 是 VEH 的 优先 级 高 于 SEH( 但 仍然 低 于 调试 占 处 理 的 优先 级 ) ,并 且 VEH 可 
以 在 SEH 之 前 执行 ,也 可 以 在 SEH 之 后 执行 ,这 一 点 用 户 可 以 目 由 定义 。 与 SEH 相 比 ， 
VEH 没有 栈 展开 机 制 ,善后 工作 不 需要 用 户 自己 定义 。 

VEH 有 两 个 链表 头 :链表 0 和 链表 1, 前 者 的 异常 处 理 框 架 是 由 卫 数 
AddVectoredExceptionHandler 挂 载 上 去 的 (Windows XP 及 以 上 的 版 本 支持 ) ,后 者 的 异 和 常人 外 
理 框架 则 是 由 疯 数 AddVectoredContinueHandler 挂 载 上 去 的 (Windows Vista 及 以 上 的 版 本 文 
持 ) ,分 别 通过 RemoveVectoredExceptionHandler 和 RemoveVectoredContinueHandler 进行 框架 
删除 。 无 论 执行 在 前 还 是 在 后 ,只 要 前 者 的 异 第 处 理 框架 处 理 了 当前 的 异常 ,就 不 再 分 发 给 
后 面 的 异 向 处理 框 并 了 ,由 此 可 见 VEH 给 了 应 用 程序 一 个 先 于 SEH 框架 处 理 异常 的 手段 。 

最 后 提 一 下 软 异 第 。 有 所谓 软 异 肖 就 是 由 软件 触发 的 异常 ,这 是 一 种 以 主动 方式 触发 的 
异常 ,用 于 再 次 回 到 异常 处 理 框 架 中 ,C++ 异 第 处 理 框架 的 throw 关键 字 就 用 于 对 软 异 第 的 
调用 。 软 异 稼 的 调用 图 数 有 两 个 :RtlRaiseException 和 RtlRaiseStatus。 章 者 的 参数 是 个 异常 
记录 块 EXCEPTION_RECORD ,后 者 的 参数 是 异 稼 的 出 错 状态 码 , 但 两 者 都 是 基于 系统 调用 
NtRaiseException 的 。 

NtRaiseException 的 执行 流程 如 图 9 -19 所 示 。 NtRaiseException 首先 调用 
KiRaiseException 以 将 作为 参数 传 下 来 的 上 下 文 结 构 CONTEXT 转换 成 自 隐 框架 TrapFrame， 
并 调用 KiDispatchException 。 对 于 KiDispatchException 我 们 就 很 熟悉 了 ,无论 是 在 内 核 态 空 
间 还 是 用 户 态 空间 , 部 遍历 ExceptionList 并 从 KiRaiseException 返回 。 之 后 根据 
KiRaiseException 返回 的 状态 人 码 (表示 处 理 异 稼 是 否 成 功 ) 来 决定 是 调用 KiServiceExit( 处 理 
异常 不 成 功 ) 还 是 KiServiceExit2( 处 理 异 第 成 功 )。KiServiceExit 和 KiServiceExit 的 内 部 处 
理 流程 一 致 ,但 参数 不 一 样 ,特别 是 对 于 尾声 TRAP_EPILOG 的 处 理 。 
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NtRalseException 


Le KiRaiseException 


KeContextlolrapFrame 


返回 非 0 


执行 KiServiceExit 


9 一 19 NtRaiseException 的 执行 流程 


KiDispatchException 


本 章 小 结 


本 章 以 堆栈 动态 平衡 为 主线 介绍 了 Windows 异常 处 理 的 相关 流程 ,包括 内 核 态 空 间 的 
异 第 处 理 和 用 户 态 空间 的 异常 处 理 。 最 后 介绍 了 什么 是 疝 量化 异 芝 处 理 。 
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内 存 管 理 机 制 


内 存 管理 是 操作 系统 的 核心 模块 ,本章 将 按照 图 10 -1 所 示 的 提纲 进行 详细 介绍 。 


什么 是 物理 内 存 ?什么 是 虚拟 内 存 ? 
页 式 管理 机 制 
[| ”CPU 中 的 内 存 管 理 单元 
综述 创 - 
页 面目 录 表 
i 
内 存 沪 问 机 制 
操作 系统 中 内 存 空 间 的 划分 格局 
内 存 区 间 
虚拟 地 址 空间 想 关 数据 告 构 6/ ”内存 区 块 。 攻 过 志 避 移交 天 
内 存 页 面 
页 帧 : 代表 物理 内 存 页 面 的 数据 结构 
= 种 EE 
物理 地 址 空间 
物理 内 存 页 帧 的 7 个 队列 及 其 之 间 的 转换 关系 
内 存 分 配 机 制 ”9 
虚拟 内 存 页 面 与 物理 内 存 页 面 的 映射 与 解除 映射 的 寸 程 
作为 后 备 的 借 拘 文件 页 面 的 概念 
内 存 管理 此 [一 一 一 一 一 一 | 
、 页面 映射 机 制 “6|“ 倒 搁 页 面 与 志 存 画面 、 物 理 页 面 之 间 伍 入伍 出 的 第 咯 和 过 程 
一 ， 屿 出 状 + 对 诗 页 面 和 干净 页 面 各 有 处 香 迟 路 
机 制 “ 电 虚拟 内 存 分 配 的 过 得 : 区 间 - > 区 块 - > 页面 
| 页 面 换 出 机 制 
内 存 页 面 异 常 处 理 / /发 生 缺 页 异常 后 的 处 理 过 程 
什么 星 共 享 映射 区 
对 PE 文件 的 分 本 
共享 商 时 区 机 制 ”| 共享 喘 射 区 内 存 的 分 配 “6| 。 对 莹 证 文件 的 分 本 
对 无 目标 文件 的 分 配 
共享 映射 区 的 创建 日 
创建 过 程 
当代 操作 系统 对 和 内存 管 理 机 制 的 改进 
改进 日 
\、 64 位 系统 下 的 虚拟 内 存 写 司 布局 
图 10-1 本 章 提纲 
10.1 内 和 存 管 理 综述 


1. 物理 内 存 与 座 拟 内 存 
内 存 管 理 是 所 有 操作 系统 的 核心 功能 模块 ,在 现代 Windows 操作 系统 中 是 采用 虚拟 地 
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址 + 物理 地 址 的 方式 来 管理 内 存 的 。 例 如 我 们 篆 说 “电脑 有 4 GB 的 内 存 ” ,这 是 指 物 理 内 
存 ;说 “进程 地 址 访问 空间 4 GB”, 这 是 指 虚拟 内 存 。 

那 为 什么 不 简单 地 采用 百 接 物理 地 址 的 管理 方式 呢 ? 我 们 试想 一 下 两 个 进程 都 在 一 个 
物理 内 存 空 间 中 运行 ,起 始 地 址 都 一 样 , 那 势 上 必 有 一 个 进程 要 让 步 , 要 调整 加 载 的 起 始 地 址 
做 “ 重 定向 ” ,否则 就 会 产生 地 址 争 用 问题 。 而 现代 操作 系统 是 多 任务 系统 ,并 有 旦 所 有 进程 的 
起 始 地 址 都 一 样 ,那么 如 果 及 用 直接 物 理 地 址 的 管理 方式 ,可 以 想象 系统 中 的 各 进程 要 具备 
怎样 复杂 的 协调 机 制 才能 保证 地 址 不 被 争 用 。 

在 一 个 物理 内 存 空间 的 各 个 进程 就 算 解 决 了 “ 重 定 问 ” 问 题 ,一 个 进程 运行 难免 不 会 打 
扰 别 的 进程 运行 ,例如 一 个 越界 访问 ,可 能 就 把 男 一 个 进程 的 内 存 破 坏 了。 而 进程 是 由 人 开 
发 的 ,难免 会 出 现 这 样 的 漏洞 ,因此 进程 地 址 空间 的 隔离 非常 重要 ,而 且 只 能 把 隔离 机 制 交 
给 操作 系统 实现 ,这 也 客观 上 要 求 把 进程 能 访问 的 地 址 空间 虚拟 化 ,在 这 个 虚拟 空间 内 进程 
“天 马 行 空 , 唯 我 独 碍 ”, 而 对 物理 内 存 的 管理 使 用 则 交 给 操作 系统 。 

因此 由 操作 系统 日 己 来 完成 各 进程 的 午 定 问 以 解决 内 存 地 址 争 用 问题 既是 给 应 用 进程 
“减负 ”, 也 是 操作 系统 的 必然 选择 。Windows 系统 采用 虚拟 地 址 和 物理 地 址 相 结 合 的 方式 ， 
进程 能 看 到 的 只 有 虚拟 地 址 ,每 个 虚拟 地 址 空间 的 大 小 都 是 4 GB(32 位 系统 下 ) ,在 这 4 GB 
地 址 空间 中 只 运行 这 一 个 进程 ,因此 不 存在 地 址 重 定 回 问题 , 而 虚拟 地 址 到 物理 地 址 的 映射 
翻译 由 操作 系统 完成 。 

2. 页 式 管 理 

同时 ,Windows 内 存 管理 采用 了 页 式 管理 机 制 。 所 谓 员 去 管理 承 是 将 内 存 (包括 物理 内 
存 和 虚拟 内 存 ) 磁盘 等 存储 介质 按照 一 定 的 大 小 (例如 4 KB ) 分 割 成 一 页 一 页 的 内 存 页 面 
或 磁盘 页 面 ,磁盘 上 的 数据 以 页 面 (Page) 为 单位 加 载 到 物理 内 存 , 物 理 内 存 也 以 页 面 为 单位 
换 和 人 . 换 出 这 些 数据 ,同时 虚拟 内 存 更 是 以 页 面 为 单位 与 物理 内 存 进 行 映射 。 访 问 一 个 虚拟 
内 存 页 面 必然 对 应 映射 了 一 个 物理 内 存 页 面 ,毕竟 只 有 物理 内 存 才能 承载 虚拟 内 和 存 中 的 内 
容 。 页 式 管 理 使 内 存 管理 侧 便 化 了 ,访问 一 个 地 址 的 时 候 要 将 被 访问 内 容 加 载 到 内 存 中 ,但 
不 只 是 待 访问 的 一 小 块 数据 被 加 载 到 内 存 , 而 是 该 地 址 所 在 的 整个 内 存 页 面 补 加载 到 内 存 。 
在 32 位 系统 下 ,整个 虚拟 地 址 空间 的 大 小 是 4 GB ,一 个 页 面 的 大 小 是 4 KB ,因此 虚拟 内 存 
可 以 划分 为 1 M 个 页 面 。 物 理 内 存 也 一 样 ,例如 系统 中 只 有 2 GB 内 存 , 则 可 以 划分 为 512 K 
个 内 存 页 面 。 每 个 页 面 的 起 始 地 址 必然 是 4 KB 对 齐 的 (所 谓 对 齐 ,就 是 起 始 地 址 是 4 KB 的 
整数 倍 ) 。 这 样 做 的 好 处 是 : 

> 32 位 系统 下 只 管理 1M 个 页 面 ,管理 数量 和 范围 可 控 。 

> 对 于 页 面 的 管理 以 一 个 页 面 为 步 长 ,这样 做 符合 计算 机 的 思考 与 谈 取 习惯 。 

> 一 般 来 说 虚拟 内 存 空间 大 于 物理 内 存 空间 ,在 多 进程 环境 下 ,信用 分 页 和 倒 换 机 制 ， 

可 以 平衡 内 存 的 访问 ,三 个 锅 两 个 盖 "使 得 物理 内 存 总 可 以 应 付 得 了 虚拟 内 存 的 资 

3. 内 存 管 理 单元 

CPU 由 运算 逻辑 单元 (Arithmetic Losgic Unit ,ALU) 内存 管理 单元 (Memory Management Unit ， 
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MMU ) 和 L1 Cache .L2 Cache 等 组 成 。ALU 将 指令 或 
数据 的 虚拟 地 址 发 送 给 MMU ,MMU 将 虚拟 地 址 翻译 | | 二 半生 下 元 
为 物理 地 址 供 ALU 访问 ,并且 也 对 地 址 的 访问 做 权限 
检查 。MMU 查找 物理 地 址 时 首先 在 TLB( 快 表 ) 中 查 
找 页 目录 项 ,如 果 命中 则 直接 从 TLB 中 取 目 录 项 ( 页面 0 
地 址 ) ,未 命中 则 再 从 内 存 中 获取 目录 项 ,从 TLB 中 查 
找 要 比 从 内 存 中 取 址 快 得 多 。 如 图 10 -2 所 示 , 可 以 
看 出 ,MMU 在 地 址 翻译 中 起 到 核心 作用 。 

4. 页 面目 录 表 

CR3 a 当前 进程 的 页 面目 录 表 的 物理 地 址 ,这 个 表 是 专门 为 进程 访问 内 存 
页 面 而 设计 的 。 它 是 个 二 级 表 : 将 4 GB 的 虚拟 地 址 空间 划分 为 1 M 个 内 存 页 。 一 维 线性 管 
理 1 M 个 页 面 地 址 的 开销 也 很 大 ,但 如 果 按 照 二 级 目录 的 方式 组 织 对 这 1 M 个 页 面 的 访问 
(采用 二 维 数 组 的 方式 管理 ) , 则 可 以 划分 成 1 K 个 一 级 索引 ,每 个 索引 管理 1 K 个 页 面 ( 二 
级 索引 ) ,这 种 方式 还 是 比较 容易 接受 的 ,毕竟 查找 两 次 长 度 不 是 很 长 的 数组 也 不 是 什么 开 
销 大 得 不 得 了 的 事 。 更 重要 的 是 ,进程 对 内 存 页 面 的 访问 基本 上 只 是 访问 几 个 页 面 ,对 应 的 
页 目录 项 也 就 是 几 个 ,如 果 做 成 一 维 数组 ,数组 中 基本 上 是 页 帧 的 空 指针 ,但 数组 仍然 要 占 
据 一 个 4 MB 的 内 存 空 间 (4 B x1 M), 太 不 经 济 ; 而 做 成 二 维 数组 ,这 几 个 页 面 对 应 的 页 帧 
指针 充其量 也 就 占用 几 个 页 面 ,加 上 页 目录 项 所 在 的 页 面 也 没有 多 少 , 对 内 存 的 需求 要 比 一 
维 数组 集约 很 多 。 

在 上 述 方 案 中 ,我 们 将 一 级 索 3 ed i Directory Entry ,PDE ) ,将 二 级 索引 
称 为 页 表 项 (Page Table Entry,PTE)。 每 个 PDE 中 存放 了 对 应 PTE 表 的 物理 内 存 页 面 的 地 
址 ,一 个 PDE 包含 了 1K 个 连续 的 yy 一 个 PTE 也 代表 了 一 个 物理 内 存 页面 的 地 址 , 医 
此 一 个 PTE 表 代 表 了 1 kK 个 物理 内 存 页 面 ,如 图 10 -3 所 示 。 无 论 是 PDE 还 是 PTE ,在 32 
位 系统 中 都 占用 4 个 字 节 ,因此 PDE 表 占 用 一 个 4 KB 内 存 页 面 (4 B x1 K) ,而 一 个 PTE 表 
也 占用 了 一 个 4 KB 内 存 页 面 。 


图 10-2 CPU 逻辑 示意 图 


CR3 寄 存 器 


10 一 3 页 面目 录 表 结构 
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5. 内 存 访 问 

CPU 对 于 内 存 的 访问 过 程 大 致 如 下 : 

(1) ALU 将 指令 中 需要 的 虚拟 地 址 发 送 给 MMU 。 

(2) MMU 根据 虚拟 地 址 的 高 10 位 和 中 间 10 位 向 TLB 查询 当前 进程 需要 访问 的 页 表 
项 是 否 已 经 存在 。 在 32 位 系统 中 使 用 高 10 位 描述 PDE 的 索引 (一 级 索引 ) ,使 用 中 间 10 
位 描述 PTE 的 索引 ,使 用 低 12 位 描述 该 虚拟 地 址 所 指向 的 内 容 在 PTE 所 代表 的 内 存 页 面 
的 偏 移 。 若 存在 , 则 向 TLB 获取 PTE 以 返回 给 ALU 并 跳 转 到 步骤 (6) ; 否则, 跳 转 到 步骤 
(3) 。 虚 拟 地 址 与 页 面 地 址 的 映射 关系 如 图 10 -4 所 示 

(3) 将 当前 进程 的 页 面目 录 表 物理 地 址 赋值 给 CR3 寄存 器 ,该 地 址 存放 于 当前 进程 的 
KPROCESS 结构 的 DirectoryTableBase 字段 中 。 

(4) 根据 CR3 描述 的 地 址 获取 当前 进程 的 页 面目 录 表 。 

(5) 在 页 面目 录 表 中 根据 虚拟 地 址 的 前 20 位 找到 对 应 的 PDE 和 PTE, 并 刷新 缓存 至 
TLB 中 ,同时 将 其 返回 给 ALU 。 

(6) ALU 根据 获得 的 PTE 访问 内 存 页 面 ,并 将 内 存 页面 的 内 容 刷 新 驻 留 到 Cache 中 。 


CR3 寄 存 器 


-本 4KB 物 理 页 面 
被 访问 的 数据 


虐 拟 地 址 
图 10-4 虚拟 地 址 与 页 面目 录 表 的 映射 关系 

在 进程 中 ,对 内 存 的 访问 带 有 一 定 的 局 部 性 ,也 就 是 说 对 于 数据 或 代码 的 访问 一 般 都 集 
中 在 当前 访问 地 址 的 周围 ,很 少 出 现 乱 跳 一 气 的 现象 ( 代码 一 般 是 顺序 执行 的 ,因此 其 在 内 
存 中 的 位 置 一 般 是 相 邻 的 ,数据 也 同样 带 有 类 似 的 局 部 性 ,当然 ,使 用 了 代码 混淆 加 扰 技 术 
的 除外 ) 。 同 时 ,被 访问 的 物理 页 面 很 有 可 能 在 短 时 间 内 再 次 被 访问 。 采 用 分 页 机 制 后 ,我 
们 在 一 段 时 间 内 访问 的 代码 或 数据 大 概率 是 在 一 个 页 面 中 ,因此 一 个 页 面 在 内 存 中 可 能 会 
使 用 很 长 时 间 而 不 被 换 出 ( 页面 内 容 一 直 被 访问 ) 。 在 一 个 进程 的 生命 周期 中 ,被 访问 的 页 
面 可 能 也 就 是 十 几 个 ,而 这 十 几 个 页 面 也 许 就 分 布 在 两 三 个 PTE 表 中 ,再 加 上 PDF 表 , 至 多 
也 就 占用 三 四 个 内 存 页 。 将 少数 的 几 个 页 面 地 址 及 其 关系 存放 在 高 速 访问 缓存 中 有 利于 加 
快 访问 速度 ,减少 内 存 访问 ,这 也 是 设置 TLB 的 初衷。 

因此 ,进程 被 访问 时 ,MMU 先 探查 TLB 中 是 否 存 在 要 被 访问 页 面 的 PDE 与 PTE, 如果 
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存在 ,MMU 就 了 是 接 从 TLB 中 读 取 ,否则 就 从 内 存 中 读 取 页 面目 录 表 并 将 待 访问 的 PDE 和 
PTE 调 入 TLB 中 以 便 下 次 访问 。 当 估 TLB 也 不 是 无 限 容 量 的 ,其 缓存 的 页 表 项 也 在 不 断 地 
老化 , 当 页 表 项 长 时 间 没 有 被 访问 ,其 在 TLB 中 也 就 逐渐 老化 失效 了 ,可 以 把 存储 空间 让 给 
别 的 页 表 项 , 待 下 次 再 访问 该 页 表 项 时 重新 调 人 就 行 了 。 

现代 内 存 管 理 也 支持 页 面倒 换 机 制 。 前 文 说 过 ,一 般 物理 内 存 会 小 于 虚拟 内 存 ,例如 在 32 
位 系统 中 ,虚拟 内 存 空 间 为 4 GB ,而 物理 内 存 空间 可 能 只 有 2 GB。 在 进程 开 得 很 多 的 情况 下 
物理 内 存 的 需求 也 会 变 得 很 大 ,再 加 上 系统 日 再 的 服务 也 需要 很 大 数量 的 物理 内 存 , 就 显得 物 
理 内 存 资 源 不 够 用 了 。 物 理 内 存 不 够 用 ,系统 啊 应 就 会 变 慢 变 卡 ,这 是 操作 系统 运行 时 需要 章 
力 避 免 的 。 页 面倒 换 机 制 支 持 将 暂时 不 用 的 内 存 页 面 写 回 磁 盘 以 释放 对 物理 门 存 页 面 的 占 
用 ,释放 的 物理 内 存 页 面 被 调度 给 其 他 进程 使 用 。 后 文 也 会 对 这 种 机 制 进 行 话 细 摘 述 

6. 地 址 空间 的 划分 

虚拟 地 址 空间 被 分 成 了 内 核 态 空 间 和 用 户 态 空间 两 部 分 ,在 32 位 系统 中 以 0x80000000 为 
界 , 以 上 为 内 核 态 空 间 , 以 下 为 用 户 态 空间 ,当然 也 可 以 通过 配置 将 这 个 分 界 地 址 抬 高 到 
0xC0000000 ,如 图 10 -5 右 半 部 分 所 示 。 这 样 划 分 有 利于 实现 内 核 态 空间 数据 的 共享 和 用 户 态 

空间 数据 的 隔离 。 不 过 ,在 32 位 系统 中 也 不 是 严格 按照 上 述 两 个 地 址 分 界 的 ,在 这 两 个 地 址 

的 上 下 以 及 周围 还 有 一 些 “ 飞 地 ” ,代表 了 两 个 空间 的 缓冲 隔离 地 带 , 因 此 也 都 是 不 可 访问 的 。 


(DGB 00000000 QODOOOODN 


应 用 程序 代码 
| 


DDL 代码 
3 GB 用 户 空 间 


(2.147479351 GB) TFFFEFFF 


(2.147479332 GB) JFFFFOOO 


64 民 B 的 不 可 访问 区 域 
内 核 与 执行 体 
HAL 
启动 型 设备 动 程序 


(2.147483648 CGB) S0000000 


动态 内 核 空间 


(3.221225472 GB) CDO00000 


(3.225419776 GB) CO400000(x86) 
COSDODOOX86 pae) J 
(3.229614080 GB) 超 23|9] 
) - 
) 
) 


(3.229614080 GB) CO800000(x86; 
COCOOOOO(x BG pae 分 页 池 
(3.233808384 GB 拍 分 前 池 
Fm 和 
动态 内 核 空间 
(4.290772992 GB) FFC00000 


(4.294967295 GB) FFFFFFFF 


BFFFFFFF 
(3.221225471 GB) 

CO000000 
(3.221225472 GB) 


| GB 系统 空间 
站 入 3 人 


型 没 全 开动 程序 
动态 内 核 空间 


保留 给 HAL 使 用 


FFFFFFFF 


10 一 5 ” 32 位 系统 中 的 两 种 虚拟 地 址 空间 布局 
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用 户 态 空间 的 内 存 消费 者 一 般 有 这 样 几 类 : Windows PE 文件 映像 数据 映射 文件 . 堆 
栈 ,而 按照 状态 来 分 又 可 分 为 FREE( 释放 ) .RESERVE( 保 留 ) .COMMIT( 提交) 三 种 。 

综 上 所 述 ,虚拟 内 存 ,物理 内 存 、 页 面倒 换 是 构成 内 存 管理 机 制 的 核心 。 在 Windows 系 
统 中 ,上 述 内 存 管理 机 制 可 以 实现 以 下 目标 ， 

> 使 现 有 的 物理 内 存 能 够 满足 系统 中 各 种 进程 的 访问 需要 。 

> 隔离 各 个 进程 的 内 存 地 址 访问 空间 ,使 进程 之 间 的 运行 互 不 干扰 。 

> 加 速 对 内 存 的 访问 。 

> 实现 内 存 保护 机 制 ,例如 只 读 内 存 不 可 写 .可 读 写 内 存 不 能 执行 等 ,这 在 防止 堆栈 滋 

出 漏洞 中 非常 有 意义 。 


10.2 内存 分 配 机 制 


10.2.1 虚拟 地 址 空间 


在 进程 的 执行 体 结构 EPROCESS 中 存在 描述 用 户 态 地 址 空间 的 数据 结构 , 即 
EPROCESS 的 VadRoot 域 指 回 的 MADDRESS_ SPACE 数据 结构 ,而 MADDRESS_SPACE 的 第 
一 个 域 就 是 MEMORY_AREA 数据 结构 。 这 两 个 数据 结构 中 ,前 者 叫 作 内 存 空间 ,后 者 包含 
了 用 户 态 地 址 空间 中 的 地 址 区 段 .区 块 队列 ,起止 地 址 等 重要 信息 , 叫 作 内 存 区 间 ,如 图 10 一 
6 所 示 。 


StartineAddress EndingAddress 


中 ”MEMORY AREA | MEMORY AREA | |MADDRESS_SPACE 


RegionListHead RegionListHead 
1 1 
| 
图 10-6 用 户 态 地 址 空间 的 数据 结构 

我 们 首先 来 看 看 内 存 区 间 内存 区 块 和 内 存 页 面 之 间 的 关系 。 

1. 内 存 区 间 

内 存 空间 的 这 2 GB( 或 3 GB ) 不 是 都 在 使 用 ,可 能 只 使 用 了 其 中 一 部 分 数据 区 间或 代码 
区 间 ,这 些 区 间 用 MEMORY_AREA 结构 表示 ,它们 是 虚拟 地 址 空间 中 已 分 配 的 区 域 , 或 者 说 
就 是 使 用 VirtualAlloc 函数 RESERVE( 保 留 ) 或 COMMIT( 提 交 ) 后 的 虚拟 内 存 。 

所 谓 预 定 就 是 分 配 区 间 但 不 映射 虚拟 内 存 页 面 , 所 谓 提交 就 是 既 分 配 区 间 也 映射 虚拟 
内 存 页 面 。 因 此 预定 只 能 说 明 “ 此 路 是 我 开 ”, 这 段 地 址 范围 “我 占 了 ”, 但 并 不 能 说 明 与 虚 
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拟 内 存 的 映射 也 建立 了 ,更 不 能 说 明 用 于 承载 内 容 的 物理 内 存 也 分 配 了 。 

MEMORY_AREA 的 组 织 形态 是 二 义 树 ,如 图 10 -7 所 示 。 左 边 的 子 树 表示 地 址 空间 低 
于 自己 的 区 间 范 围 , 即 MEMORY _ AREA2. EndingAddress < MEMORY ARFEA1. 
StartingAddress ;右边 的 子 树 表 示 地 址 空间 高 于 上 月 己 的 区 间 范 围 , 即 MEMORY _AREAI1. 
EndingAddress < MEMORY_AREA3. StartingAddress。 以 这 样 一 种 方式 组 织 内 存 区 间 可 以 避 


Left Child Right Child 


MEMORY AREA2 MEMORY AREA3 


Right Child Left Child 


MEMORY AREAS 


图 10-7 MEMORY_AREA 二 义 树 


2. 内 存 区 块 

每 个 区 间 MEMORY_AREA 的 Data 域 要 么 指 辣 SectionData 数据 结构 ,要 么 指向 区 块 队 
列 RegionListHead ,如 果 MEMORY_AREA 描述 的 区 域 是 文件 映射 区 或 共享 映射 区 , 则 Data 
域 指 癌 前 者 ;如 有 果 只 是 普通 内 存 区 间 , 则 指 癌 后 者 。 

区 块 队 列 RegionListHead 中 的 元 素 是 MM_REGION 结构 ,一 个 MM_REGION 是 地 址 连 
续 且 属性 和 保护 模式 一 致 的 地 址 范围 (例如 都 是 MEM_COMMIT 或 MEM_RESERVE 类 型 ,或 
都 是 PAGE_READONLY 或 PAGE_READWRITE 保护 模式 ) 。 这 也 从 侧面 说 明 相 邻 的 MM_ 
REGION 必然 属性 不 同 或 保护 模式 不 同 , 否 则 就 合并 成 一 个 MM_REGION 了 。 

3. 内 存 页 面 

一 个 区 块 MM_REGION 包含 了 若干 虚 存 页 面 ,因此 区 块 MM_REGION 是 4 KB 对 齐 的 。 
页 面 是 内 存 管理 的 最 小 单位 。 页 面 分 为 虚 存 页 面 和 物理 (内 存 ) 页面 ,后 面 还 会 讲述 倒 换 页 
面 ,在 32 位 系统 中 它们 都 是 4 KB 大 小 的 ,以 方便 以 整 页 为 单位 进行 换 入 换 出 操作 。 

由 此 ,我们 可 以 看 出 用 户 态 虚拟 内 存 空 间 的 管理 层次 ,由 大 到 小 分 别 是 :内 人 存 空间 一 内 
人 存 区 间 一 内 存 区 块 一 内 存 页 面 。 接 下 来 我 们 看 看 物理 地 址 空间 。 


10.2.2 物理 地 址 空间 


相 比 虚拟 地 址 空间 ,物理 地 址 空间 要 简单 很 多 ,对 于 物理 地 址 空间 的 管理 同样 也 是 以 页 
面 为 单位 进行 的 ,但 也 只 是 页 面 这 一 种 管理 单位 ,不 存在 区 块 . 区间 和 空间 这 些 概 念 。 在 
Windows 系统 中 代表 物理 页 面 的 数据 结构 是 PHYSICAL PAGE , 它 有 以 下 三 种 类 型 . 
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> MM_PHYSICAL PAGE _ FREE :表示 已 经 被 释放 的 物理 内 存 页 面 。 

> MM_PHYSICAL PAGE_USED :表示 正在 使 用 中 的 物理 内 存 页 面 。 

> MM_PHYSICAL_PAGE_BIOS: 表 示 BIOS 专用 的 物理 内 存 页 面 ,其 物理 地 址 小 

于 0x100000。 

在 Windows 内 核 中 有 一 个 内 核 初始 化 时 创建 的 全 局 物理 页 面 数组 MmPageArray ,其 下 标 
就 是 物理 页 帧 号 (Page Frame Number,PFN ) ,物理 页 面 的 地 址 右 移 12 位 ( 除 以 4 KB ) 就 是 
PFN。 系 统 中 有 多 少 物理 内 存 页 面 ,这 个 数组 就 有 多 少 元 素 (4 GB 物理 内 存 有 1 M 个 页 面 ， 
MmPageArray 数组 的 大 小 也 为 1 M, 页 帧 号 的 范围 是 0 ~0XFFFFF ) 。MmPageArray 数组 中 的 
元 素 是 PHYSICAL_PAGE 结构 ,以 下 是 该 结构 的 具体 定义 : 


typedef struct PHYSICAL PAGE 


{ 
ULONG Flags; // 页 标识 ,可 以 是 上 述 三 种 类 型 之 一 
LIST ENTRY ListEntry; / /链表 节点 ,用 于 挂 入 7 个 链表 
ULONG ReferenceCount; /7 引用 计数 
KEVENT Event; 
SWAPENTRY SavedSwapEntry; // 用 于 表示 倒 换 页 面 所 在 的 文件 的 页 面 列表 


ULONG LockCount:; // 锁 计数 
Struct MM RMAP ENTRY * RmapListHead; // 本 物理 页 面 映射 的 那些 虚拟 页 面 组 成 的 链表 
} PHYSICAL PAGE, * PPHYSICAL PAGE 


除了 在 MmPageArray 数组 中 存放 PHYSICAL_PAGE,PHYSICAL_PAGE 结构 也 可 以 被 挂 
人 了 7 个 队列 : BiosPageListHead、 FreeZeroPageListHead、 FreeUnZeroPageListHead 和 
UsedPageListHeads 队列 数组 ,其 中 UsedPasgeListHeads 数组 内 含 4 个 队列 元 素 ,如 下 所 示 : 

> MC_CACHE :该 队列 用 于 内 容 缓 存 页 面 ; 

> MC_USER :该 队列 用 于 用 户 态 空间 映射 的 页 面 ; 

> MC_PPOOL :该 队列 用 于 可 倒 换 到 外 存 页 面 池 的 页 面 ; 

> MC_NPPOOL :该 队列 用 于 非 分 页 内 存 页 面 池 的 页 面 。 

由 定义 也 可 以 看 出 BiosPageListHead 是 专门 用 于 BIOS 物理 内 存 页 面 的 队列 ， 
UsedPageListHeads 是 用 于 在 使 用 的 普通 物理 页 面 的 缓存 队列 , 它 与 其 他 两 个 队列 的 关系 如 
图 10 一 8 所 示 。 


FreeZeroPaseListHead 


守护 线程 定时 清理 : 
MimZeroPasgeThreaqdMain 


甘 新 使 用 


FreeUnzeroPageListHead 
物理 页 面 被 倒 
换 到 外 存 而 释放 

[LMCCACHE | 
一 -ES 一 
-FRR 


10-8 三 个 内 存 页 面 队 列 的 关系 


UsedPasgeListHeads MiMemoryConsumer 
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物理 页 面 是 周转 使 用 的 ,而 不 是 被 分 配 后 就 一 成 不 变 的 。 与 UsedPageListHeads 相对 应 ， 
内 核 中 还 有 个 数组 MiMemoryConsumer, 与 UsedPagelListHeads 一 样 也 包含 前 述 4 个 元 素 (MC 
_CACHE 等 ) ,该 数组 用 于 4 种 队列 的 页 面 配 额 ,其 元 系 是 MM_MEMORY_CONSUMER 数据 
结构 ,该 结构 包括 了 对 已 分 配 页 面 的 描述 、 该 队列 的 页 面具 体 配 额 和 修 毅 员 数 指针 (每 种 队 
列 类 型 的 页 面 的 老化 修剪 策略 是 不 一 样 的 ,因此 修剪 函数 也 不 一 样 ,例如 MC_USER 队列 的 
修剪 盯 数 是 MmTrimUserMemory ) 。 

内 存 页 面 申 请 是 采用 MmRequestPageMemoryConsumer 图 数 实现 的 。 这 个 图 数 以 队列 类 
型 为 参数 ,对 选 定 种 类 的 队列 进行 配额 计算 和 页 面 修 藤 ,具体 流程 如 图 10 -9 所 示 。 


MIMemoryConsumer 
是 否 已 经 超 配 额 ? 


配额 已 超 配额 未 超 


判断 十 合 可 
以 阻 覆 等 待 


可 以 等 竺 


返回 失败 


峙 用 内 核 线程 修剪 页 面 : 


iIrnmMemoryConsumer 
MC NPPOOL 其 他 种 类 


专门 监管 空闲 物理 页 面 和 = 
数量 平衡 的 内 核 线 程 分 配 物理 页 和 面 资 空 采 物理 页 面 已 经 不 足 ? 
源 : MmAllocPage (MiMininumAvaliablePages) 


NiiBalancerlhread 激活 MiBalancerEvent 雪 本 物理 页 而 次 ET 
源 : MmAllocPage 以 阻 畴 等 等 


返回 失败 MiBalancerEvent 
唤醒 | ” 准 熏 request 挂 入 
和 AllocationListHead 队 列 
办 , 理 页 面 过 户 ， ee 
返回 成 功 办 竺 页 面 过 ) 当前 线程 阻塞 


MmlransterOwnerShipPage 


10 -9 MmRequestPageMemoryConsumer 实现 内 存 页 面 申 请 的 流程 
MmRequestPageMemoryConsumer 的 主要 流程 逻辑 是 这 样 的 : 
(1) 首先 判断 对 应 请 求 的 队列 (例如 MC_CACHE ) 是 否 已 经 超 配额 了 。 这 是 通过 判断 
内 核 队 列 数 组 MiMemoryConsumer 实现 的 。 
(2) 奢 已 经 超 配 额 就 不 骨 分 配 物 理 页 面 了 ,此 时 选择 返回 失败 。 如 末 未 超 配 额 ,要 判断 
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该 线程 (内 存 页 面 申请 线程 ) 是 否 可 以 等 待 。 因 为 页 面 的 修剪 和 分 配 是 个 很 耗 时 的 过 程 ,页 
面 申 请 线程 必须 同步 等 竺 ,不 能 等 待 就 只 能 返回 失败 了 ,能 等 待 则 执行 页 面 修 草 困 数 。 
(3) 如 采 可 以 等 待 , 则 调用 内 核 旺 数 MiTrimMemoryConsumer 来 修 毅 对 应 队列 的 物理 页 
面 。 这 个 图 效 以 所 请 求 队 列 的 类 型 为 参数 ,调用 MiMemoryConsumer 效 组 中 对 应 元 素 的 修剪 
困 数 。 
(4) 修剪 完成 后 要 区 别 对 待 以 下 两 种 情况 : 
> 对 于 MC_NPPOOL 类 型 的 队列 ,要 特 事 特 办 ,优先 子 以 满足 。 因 为 非 分 页 内 存 池 的 物 
理 页 面 一 般 部 是 用 在 内 核 线 程 的 ,这 是 整个 系统 中 优先 级 最 局 的 线程 ,也 理应 优先 也 以 
满足 。 此 时 调用 MmAllocPage 负数 分 配 物 理 页 面 ,并 激活 MiBalancerEvent 事件 以 唤醒 
MiBalancerThread 内 核 线程 。 这 个 线程 是 专门 监管 空闲 物理 页 面 数 量 平衡 的 ,如 果 内 核 
页 面 需要 通过 修剪 才能 得 到 ,这 说 明 系 统 内 的 内 存 负 谷 已 经 很 高 了 ,需要 对 使 用 中 的 物 
理 页 面 进行 修 筋 释放 。 

> 对 于 除 MC_NPPOOL 外 的 其 他 类 型 的 队列 ,判断 其 空闲 的 物理 页 面 是 否 已 经 不 足 。 
如 宁 还 充足 , 则 调用 MmAllocPage 分 配 一 个 物理 页 面 ,否则 就 机修 前 一些 物 理 页 面 
了 。 此 处 修剪 物理 页 面 的 步骤 与 MC_NPPOOL 类 型 队列 的 不 同 ,MC_NPPOOL 类 型 队 
列 的 优先 级 高 ,必须 优先 满足 ,无 论 如 何 都 要 挤 出 一 个 物理 页 面 给 它 有 用。 但 其 他 队列 
的 优先 级 没 那 么 高 ,此 时 要 局 动 修剪 线程 现 学 现 卖 ”, 这 将 是 一 个 同步 等 每 的 过 程 ， 
此 需要 询问 当前 线程 是 否 可 以 等 待 ,不 能 等 就 直接 pass 了 。 

(5) 如 末 “ 现 学 现 卖 ”" 过 程 中 线程 能 等 得 , 则 准备 一 个 物理 页 面 申 请 request ,将 其 挂 人 全 
局 队列 AllocationListHead 中 ,同时 唤醒 MiBalancerThread 内 核 线程 进行 页 面 修 剪 。 做 完 这 些 
事情 9 当前 线程 就 阻塞 了 ( 在 request 中 的 Event 事件 上 等 每 ) 

(6) 如 果 MiBalancerThread 不 洱 众 望 地 修 均 出 一 堆 空 用 物理 页 面 ,AllocationListHead 队 
列 中 的 请 求 应 该 被 满足 ,这 时 要 激活 request 中 的 Event 事件 ,让 被 阻塞 的 页 面 申请 的 线程 恢 
复 执 行 。 

(7) 对 于 分 配 过 来 的 页 面 ,由 于 它 刚刚 还 是 在 其 他 进程 使 用 的 ,现在 “投诚 ”过 来 ,所 以 
要 办 理 “ 过 户 手 续 ” :调用 MmTransferOwnerShipPage。 至 此 ,对 物理 页 面 的 申请 算是 完成 了 。 

页 面 分 配 函 数 MmAllocPage 首先 对 FreeZeroPageListHead 队列 进行 得 选 ,如 果 有 空闲 页 面 
就 直接 返回 ;否则 ,再 对 FreeUnZeroPageListHead 队列 进行 贤 选 。 但 FreeUnZeroPageListHead 队 
列 中 的 页 面 是 要 进行 清洗 的 ,比如 去 化 页 面 ,清洗 完 成 后 直接 返回 。 

与 MmRequestPageMemoryConsumer 相对 应 , MmReleasePageMemoryConsumer 是 用 于 页 面 
释放 的 内 核 图 数 , 这 个 田 数 就 非常 简单 了 :从 AllocationListHead 队列 中 获取 下 一 个 页 面 申 请 
(request) ,然后 把 即将 释放 的 页 面 挂 人 该 request 的 page 域 并 激活 Event 事件 ,这 样 在 该 
request 上 等 符 的 线程 就 被 唤醒 了 了 。 
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10.2.3 页 面 映 射 机 制 


1. 页 面 映射 

所 谓 页 面 映 射 , 是 指 虚 拟 内 存 和 物理 内 存 发 生 关 联 , 即 根据 页 面目 录 表 通过 虚拟 内 人 存 找 
到 物理 内 存 的 具体 页 面 ,或 者 倒 换 文件 的 具体 页 面 。 只 有 映射 了 物理 内 存 的 虚拟 内 存 才 可 
以 被 CPU 访问 。 

页 面 映 射 通过 内 核 国 数 MmCreateVirtualMapping 实现 ,具体 流程 如 下 : 

(1) 将 物理 页 面 标记 为 "已 映射 ” ,使 用 内 核 国 数 MmMarkPageMapped 实现 。 

(2) 去 卸 该 物理 页 面 原来 的 映射 ,使 用 内 核 国 效 MmMarkPageUnMapped 实现 。 

(3) 将 物理 页 帧 的 地 址 左 移 12 位 并 与 页 面 属性 相 并 后 赋值 给 PTE。 物 理 页 面 的 大 小 
为 4 KB ,因此 一 个 物理 页 帧 的 地 址 (页 帧 号 ) 必定 是 4 KB 对 齐 的 ,也 就 是 员 帆 号 的 低 12 位 
是 无 效 的 ,只 有 高 20 位 的 描述 才 有 意义 。 但 是 PTE 是 4 字 市 的 ,也 就 是 说 存放 了 由 巾 号 后 
还 有 12 位 是 空闲 的 ,因此 可 以 用 这 12 位 存放 一 些 页 面 属性 。 

(4) 递增 该 页 面 的 页 面 映 射 表 的 引用 计数 。 

(5) 刷新 页 面 映射 表 项 在 TLB 中 的 映像 ,通过 内 核 图 数 MiFlushTlb 实现 。 

页 面 映射 的 删除 通过 内 核 困 数 MmDeleteVirtualMapping 实现 ,具体 步骤 如 下 : 

(1) 使 用 内 核 吨 数 MmGetPageTableForProcess 获取 当前 页 面 的 PTE 。 

(2) 将 页 面目 录 表 中 该 页 面 的 PTE 置 零 。 

(3) 刷新 页 面 映 射 表 项 在 TLB 中 的 映像 ,通过 MiFlushTlb 六 效 实现 的 。 

(4) 去 抒 该 物理 页 面 原来 的 映射 ,通过 MmMarkPageUnMapped 男 数 实现 。 

($5) 释放 物理 页 帧 ,通过 MmReleasePageMemoryConsumer 亲 数 实现 ，。 

(6) 递减 该 页 面 的 页 面 映 射 表 的 引用 计数 。 

2. 页 面倒 换 与 倒 换 页 面 

在 现代 操作 系统 中 ,不 但 有 虚拟 内 存 页 面 和 物理 内 存 页 面 , 还 和 存在 一 种 倒 换 页 面 。 倒 换 
页 面 本 质 上 是 磁盘 上 的 页 面 , 是 系统 中 用 于 文件 后 备 的 页 面 。 在 操作 系统 中 引入 倒 换 页 面 
主要 是 为 了 节省 内 存 , 例 如 在 系统 运行 大 量 进程 时 会 需要 占用 较 多 内 人 存 质 源 , 将 当前 暂时 不 
被 访问 的 内 存 上 的 内 容 与 回 磁盘 文件 (如 林内 存 页 面 未 被 更 改 则 不 需要 与 回 磁盘 文件 ) 从 而 
释放 物理 内 存 页 面 以 供 其 他 进程 使 用 ;或 者 在 系统 休眠 时 将 长 时 间 未 被 访问 的 物理 页 面 (其 
更 改过 的 “ 脏 ” 物 理 页 面 写 回 磁盘 文件 ) 收 回 。 可 使 用 内 核 函 数 MmPageOutVirtualMemory 将 
虚 存 页 面 的 内 容 倒 出 到 倒 换 页 面 中 ,具体 步 又 如 下 : 

(1) 断 开 页 面目 录 表 对 应 的 PTE 与 物理 页 面 之 间 原 有 的 联系 ; 

(2) 靳 开 物 理 页 面 与 倒 换 页 面 之 间 原 有 的 联系 ; 

(3) 建立 PTE 与 倒 换 页 面 之 间 新 的 联系 ; 

(4) 清 零 PTE 的 物理 页 标志 位 PA_PRESENT ,使 PTE 与 物理 内 存 页 面 之 间 的 映射 
ne 
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新 建 映 射 


断 开 映射 | 4kB 倒 者 
的 磁盘 页 面 


叫 个 对 谨 页 
面 的 访问 


图 10-10 倒 换文 件 页 面 映射 示意 医 
可 以 看 出 ,一 个 虚 存 页 面 要 么 与 物理 页 面 映射 , 要 么 与 倒 换 页 面 映 射 , 要 么 无 映射 (对 应 
的 PTE 为 空 ) 。 当 PTE 的 PA_PRESENT 标志 位 为 0 时 表示 页 面 不 在 内 存 中 ,CPU 访问 到 该 
页 会 产生 缺 页 中 断 , 中 断 例 程 将 该 页 面 对 应 的 后 备 文 件 倒 换 到 内 存 中 来 。 当 一 个 页 面 长 时 
间 未 受到 访问 就 会 被 倒 出 到 倒 换 页 面 中 。 倒 入 不 是 系统 的 自发 行为 ,而 是 缺 页 中 断 发 生 后 
的 被 动 行为 ,因此 倒 入 的 过 程 应 包含 在 缺 页 中 汤 啊 应 清 数 ( MmAccessFault) 中 。 
我 们 先 来 看 看 页 面倒 出 函数 MmPageOutVirtualMemory 的 主要 执行 流程 ,如 图 10 - 11 
所 示 。 


物理 页 面 是 脏 的 ， 与 倒 换 页 面 


物理 页 面 是 干净 的 ， 与 倒 四 和 和 
一 th 1 面 是 脏 的 ? ee 
换 页 面 的 内 容 没有 差别 ， 物理 页 面 是 脏 的 的 内 容 有 差别 ， 这 里 不 仅 需要 


这 里 只 需要 断 连接 断 连接 ， 还 需要 向 磁 蕉 写 入 


.| 删 际 目 录 表 项 与 内 存 页 面 的 联系 : 在 页 面目 录 表 中 获取 倒 换 页 面 项 : 


MmDeleteVirtualvlapping 


MmtetsavedswapEntryPage 
未 获取 到 已 获取 到 


肿 除 工作 集 ， 
4KB 物 理 MmDeleteAllRmaps 分 配 一 个 倒 换 页 面 项 ; 分 配 成 功 
+ 为 存 页 面 MmAllocswapPasge 
新 建 MAP 门 仔 具 


镜 理 页 面 已 有 C 兴 由 2 
人 i 问 倒 换 页 面 写 入 : 
Et MmWriteToSswapPage 


恢复 原 有 映射 并 返回 


断 开 遇 射 


i 
1 


删除 目录 表 项 与 内 存 页 面 的 联系 : 
MmDeletewirtualMapping 


4 及 卫 赋 换 
研 机 页面 


创建 页 面目 录 表 与 
倒 挠 广 忻 的 联系 : 
MmCreatePageFileMapping 


;| 断 开 物理 页 面 与 倒 换 页 面 的 联系 ; 
MmSethavedswapEntryPage 


MmReleasePage\emoryConsumer 


图 10 一 11 MmPageOutVirtualMemory 的 主要 执行 流程 
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所 请 “工作 集 ” ,就 是 当前 进程 保留 在 物理 内 存 中 的 页 面 ,这 些 页 面 或 者 正在 被 访问 ,或 
者 刚 锌 访问 还 未 倒 换 到 后 备 文件 ,或 者 短期 内 还 可 能 再 锌 访问 。 

MmPageOutVirtualMemory 冯 先 判断 当前 的 物理 页 面 是 否 是 “ 脏 ” 页 面 ,所 请 脏 ,就 是 在 本 
次 被 调和 人 的 过 程 中 页 面 中 的 内 容 发 生 了 改变 ,需要 写 回 倒 换文 件 中 保存 。 这 很 好 理解 。 基 
于 此 我 们 分 为 干 闪 页面 和 脏 页 面 两 种 情况 讨论 。 

先 看 十 兆 页 面 的 处 理 过 程 . 

(1) 首先 删除 页 面目 录 表 项 与 物理 内 存 页 面 的 映射 关系 。 

(2) 删除 工作 集 ( 物理 页 面 不 再 可 用 了 ,因此 需要 把 工作 集 里 面 这 个 物理 内 存 页 面 删 抒 
以 维护 数据 一 致 性 ) 。 

(3) 检查 这 个 物理 页 面 是 否 有 对 应 的 倒 换 页 面 . 

> 如 采 有 , 则 创建 页 面目 录 表 与 倒 换文 件 之 间 的 映射 (以 备 下 次 再 用 ) ,删除 物理 页 面 与 

倒 换 页 面 之 间 的 映射 ,最 后 释放 物理 页 面 。 

> 如 条 没 有 , 则 和 直接 释放 该 物理 页 面 。 

而 针对 及 页 面 的 处 理 过 程 如 下 : 

(1) 首先 在 页 面目 录 表 中 获取 倒 换文 件 页 面 的 目录 表 项 (页 面目 录 表 有 两 种 目录 表 项 : 
物理 页 面 项 和 倒 换 页 面 项 ) ,如 采 未 能 获取 到 目录 表 项 , 则 分 配 一 个 目录 表 项 。 

(2) 有 了 目录 表 项 (刚刚 新 建 或 已 有 ) 后 将 当前 物理 页 面 的 “ 胜 "数据 写 回 倒 换文 件 。 

(3) 删除 对 应 的 目录 表 项 与 物理 内 存 页 面 的 上 映 喘 关 系 。 

(4) 创建 页 面目 录 表 与 倒 换文 件 之 间 的 映射 (以 备 下 次 再 用 ) ,删除 物理 页 面 与 倒 换 页 
面 之 间 的 映射 ,最 后 释放 物理 页 面 。 

此 时 PTE 与 物理 页 面 、 倒 换 页 面 的 关系 如 图 10 - 12 所 示 。 


4KEB 倒 换 
磁 盐 页 面 


图 10-12 建立 PTE 与 倒 换 页 面 的 映射 
以 上 我 们 说 的 是 进程 的 用 户 态 地 址 空间 。 但 是 一 个 进程 不 光 有 用 户 态 空间 ,还 有 内 核 
态 空 间 ,仍然 要 徘 页 面目 录 表 来 映射 。 可 以 想象 ,在 32 位 系统 的 进程 页 面目 录 表 中 ,PDE 表 
的 后 半 部 分 代表 了 2 GB 的 内 核 态 空间 ,这 部 分 内 容 在 各 个 进程 中 郡 基本 一 致 ,因此 可 以 通 
过 内 核 咽 数 MmCopyMminfo 从 系统 内 核 映 射 表 MmGlobalKernelPageDirectory 中 复制 内 核 态 
空间 部 分 的 映射 ( 只 需要 更 改 两 处 不 一 致 的 地 方 驶 行 了 )。 
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我 们 说 基本 一 致 ,但 其 实 内 核 部 分 有 两 处 不 一 致 , 即 每 个 进程 的 页 面目 录 表 和 超 空 间 。 
进程 页 面目 录 表 作为 4 GB 空间 中 的 一 部 分 ,其 固定 的 虚拟 内 存 位 置 是 0xC0000000 ,也 就 是 
说 每 个 进程 从 0xC0000000 开始 的 4 MB 虚拟 地 址 空间 是 不 一 样 的 。 同 样 , 超 空 间 是 起 点 地 
址 为 0xC0400000 的 4 MB 虚拟 地 址 空间 ,以 备 临 时 周转 时 使 用 ,如 图 10 - 13 所 示 。 


CR3 寄 存 化 
-| 4MB 内 存 空间 


--14MB 内 存 空间 


| 
| 用 户 态 空 

加 闻 分 一 
页 面目 录 表 的 PDE 


0 
| EE 


| 


0 
| 肉 楼 态 衬 


页 血 日 : JPDLE 


图 10-13 三 级 页 面目 录 表 示意 图 
创建 进程 时 通过 MmCopyMmlInfo 从 系统 内 核 映 射 表 中 复制 内 核 部 分 的 映射 ,并 且 调 
用 MmCreateProcessAddressSpace 创建 进程 的 地 址 空间 ,可 见 目 录 表 在 创建 进程 时 就 要 构 
造 好 。 
3. 内 存 分 配 
下 面 我 们 来 看 系统 图 数 NtAllocateVirtualMemory ,这 个 函数 的 作用 是 分 配 内 存 空 间 并 修 
改 相 关 区 域 的 属性 。 前 文 说 过 ,内 存 空 间 的 管理 粒度 从 大 到 小 为 空间 一 区 间 一 区 块 一 页 面 ， 
NtAllocateVirtualMemory 正 是 实现 了 这 个 管理 链条 ,只 不 过 最 后 的 页 面 映射 处 理 过 程 要 与 异 
律 处 理 机 制 配 合 完 成 。 NtAllocateVirtual Memory 的 执行 流程 如 图 10 一 14 所 示 。 
NtAllocateVirtual Memory 首先 判断 是 否 指 定 了 起 始 地 址 BaseAddress . 
> 指定 了 BaseAddress :通过 内 核 图 数 MmLocateMemoryAreaByAddress 找到 BaseAddress 
所 在 的 区 间 ( MEMORY_AREA) ,由 于 该 区 间 已 经 存在 ,并 且 可 能 需要 修改 该 区 域 页 
面 的 属性 ,例如 可 读 、 可 执行 ,提交 保留 状态 等 ,因此 要 考虑 该 区 域 所 辖区 块 的 修改 。 
如 图 10 - 14 中 左 半 部 分 所 示 , BaseAddress 原本 对 应 的 区 块 是 区 块 2, 由 于 
BaseAddress 所 在 页 面 属性 的 修改 ,区 块 2 要 分 裂 成 3 块 ,前 后 两 块 依然 保留 原来 的 属 
性 ,中间 一 块 的 属性 被 NtAllocateVirtualMemory 传 进 来 的 参数 修改 。 
> 未 指定 BaseAddress: 不 指定 地 址 就 无 法 从 内 存 空间 中 找到 这 个 内 存 区 间 , 只 能 通过 
内 核 限 数 MmCreateMemoryArea 创建 ,并 初始 化 区 间 的 区 块 列 表 RegionListHead，。 
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是 否 指定 了 起 始 地 址 BaseAddress? 


我 到 BRKNSXAddTSSS 拓 在 的 区 问 - 分 配 一 不 内 存 区 问 |: 


MmLocateMemoryAreaByAddress MmCreateMemoryArea 


BaseAddress BaseAddress 


StartingAddress EndingAddress StartingAddress EndingAddress 


MEMORY AREA 


| MEMORY AREA 
RegionListHead 


MM REGION MM REGION 


10 -14 ”NtAllocateVirtualMemory 的 执行 流程 


注意 :BaseAddress 只 是 MEMORY_AREA 中 间 的 一 个 点 ,不 应 狭义 地 看 成 StartingAddress， 
因为 BaseAddress 不 一 定 是 4 KB 对 齐 的 ,而 内 存 区 间 MEMORY_AREA 包含 了 区 块 ,区 块 又 包 
含 了 页 面 ,因此 MEMORY_AREA 的 StartingAddress 一 定 是 4 KB 对 齐 的 。 


10.2.4 ”页面 换 出 机 制 


页 面 从 后 备 文件 中 倒 入 物理 内 存 ,这 是 个 被 动 的 行为 , 即 当 缺 页 异常 发 生 时 ,如 采 要 访 
问 的 内 容 在 后 备 文件 中 ,要 将 该 页 面 的 内 容 倒 入 物理 页 面 中 。 但 是 页 面 的 倒 出 却 是 个 主动 
行为 ,在 Windows 中 有 个 内 核 线程 MiBalancerThread 负责 将 进程 正在 使 用 的 物理 页 面 内 容 倒 
换 到 后 备 文 件 以 便 释 放 一 些 物 理 页 面 。 

MiBalancerThread 等 待 两 类 事件 : 

> 定时 器 事件 MiBalancerTimer :由 定时 硕 激 活 ; 

> 平衡 器 事件 MiBalancerEvent: 由 事件 激活 。 

激活 后 线程 MiBalancerThread 被 唤醒 , 它 的 工作 很 简单 ,就 是 调用 MiMemoryConsumer 数 
组 中 每 个 元 素 的 修剪 函数 ,以 释放 这 个 队列 中 某 些 老化 的 物理 页 面 。 元 素 就 是 物理 页 面 的 
消费 者 , 系统 中 有 四 大 页 面 消费 者 :用 户 态 空间 进程 (MC_USER)、 内 核 分 页 池 (MC_ 
PPOOL) ,内 核 非 分 页 池 (MC_NPPOOL) 和 文件 缓存 (MC_CACHE ) 。 一 般 者 是 从 用 户 态 空间 
进程 和 文件 缓存 两 个 消费 者 的 页 面 队 列 中 “压榨 ”物理 页 面 。 例 如 MC_USER 元 素 代表 的 页 
面 队 列 的 “压榨 ”( 修 瘟 ) 函数 就 是 MmTrimUserMemory。 

MmTrimUserMemory 的 逻辑 也 很 简单 , 即 采 用 “最 近 最 少 被 用 到 "的 LRU 算法 将 符合 条 
件 的 物理 页 面倒 换 到 后 备 文 件 中 (由 MmPageOutPhysicalAddress 实现 ) 。 倒 换 出 去 的 页 面 分 

> 共享 映射 区 页 面 : 采 用 MmPageOQutSection View 商 数 将 页 面倒 换 出 去 : 

> 普通 映射 区 页 面 : 采 用 MmPageOutVirtualMemory 国 效 将 页 面倒 换 出 去 。 

倒 换 的 步骤 大 家 已 经 了 解 了 ,这 里 不 册 歼 述 ,如 图 10 - 15 所 示 。 
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新 建 映射 


4KB 倒 换 
| 


断 开 映 射 | 4kB 物 理 | 断 开 映射 
四 内 存 页 面 | 


叫 个 对 谨 页 
面 的 访问 


10 一 15 页 面 换 出 过 程 


10.3 内 存 页面 异 冲 处 理 


在 第 9 章 中 介绍 异常 处 理 时 曾经 描述 过 , 当 出 现 内 存 页 面 异 常 时 ,CPU 会 从 IDT 查找 并 
执行 对 应 的 异 常 处 理 例 程 。 内 存 矶 面 异常 的 处 理 例 程 是 KiTrap14。 内 存 页 面 异 党 分 为 两 
类 . 缺 页 异常 和 访问 越权 。 缺 页 异常 是 常态 化 异常 ,因而 并 不 是 真正 意义 上 的 异常 ,这 也 是 
本 刷 要 介绍 的 内 容 ; 而 访问 越权 就 是 真正 意义 上 的 异 背 了 ,例如 在 不 可 执行 的 内 存 页 面 执行 
代码。 访问 越权 是 包括 堆栈 洲 出 漏洞 在 内 的 系统 安全 问题 发 生 的 根源 。 

处 理 缺 页 异常 的 内 核 函 数 是 MmAccessFault, 其 具体 执行 流程 如 下 : 

(1) MmAccessFault 首先 判断 缺 页 异常 发 生 的 地 址 是 在 内 核 态 空间 还 是 用 户 态 空间 ,如 
果 在 内 核 态 空间 , 则 调用 Mmi386MakeKernelPageTableGlobal 更 新 当前 进程 的 系统 空间 映射 。 
因为 发 生 在 这 个 空间 区 域 的 缺 页 异 稼 很 可 能 是 由 于 系统 的 内 核 空 间 映 射 发 生 了 变化 而 进程 
的 内 核 态 空间 未 及 时 更 新 造成 的 。 

(2) 如 果 缺 页 异 稼 发 生 在 用 户 态 空间 就 要 区 分 到 底 是 越权 访问 造成 的 异 稼 还 是 真正 的 

> 如 果 是 越权 访问 异常 , 则 调用 MmpAccessFault 处 理 ; 

> 如 条 是 缺 页 异 凋 则 调用 内 核 图 数 MmNotPresentFault 处 理 。 

如 图 10 一 16 所 示 是 MmNotPresentFault 的 处理 流程 . 

内 核 态 空间 的 地 址 空间 获取 : 赋值 


MmGetkernelAddressSpace 


Addressspace 


用 户 态 空 间 的 地 址 空间 获取 : 


CurrentProcess.AddressSpace 


根据 AddressSpace 和 访问 错误 地 址 
获取 内 存 区 域 MEMORY AREA: 
MimLocateMemoryAreaByAddress 


MmNotPresentF aultVirtual lemory 


图 10 一 16 ”MmNotPresentFault 的 执行 流程 
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MmNotPresentFault 根据 发 生 异 第 的 地 址 是 在 用 户 态 空间 还 是 内 核 态 空间 分 别 获 取 对 应 的 
MADDRESS_SPACE ( 实 参 为 AddressSpace) ,并 以 此 实 参 调用 MmLocateMemoryAreaByAddress 
以 获取 内 存 区 间 MemoryArea , 最 后 幸 用 真正 的 处 理 上 明 数 MmNotPresentFaultVirtual Memory 来 
处 理 页 面 异常 。 

页 面 异 稼 的 实质 处 理 国 数 MmNotPresentFaultVirtualMemory 的 处 理 流程 如 下 . 

(1) 获取 出 错 地 址 所 在 的 内 存 区 块 Region ,判断 该 Region 是 不 是 保留 状态 或 者 不 允许 
访问 的 状态 ,是 则 出 错 返 回 ,不 是 则 执行 下 一 步 。 

(2) 创建 或 获取 一 个 页 面 申 请 操作 。 

> 之 所 以 说 “创建 或 获取 ”, 是 因为 一 个 物理 页 面 往往 对 应 了 好 几 个 虚 存 页 面 ,也 就 是 说 

可 能 有 好 几 个 线程 会 对 这 个 物理 页 面 进 行 访问 ,可 能 别 的 线程 已 经 产生 了 该 页 的 缺 
页 异常 ,针对 这 个 物理 页 面 的 申请 操作 已 经 存在 了 。 这 种 情况 下 只 需要 静 静 阻塞 等 
和 枉 申请 操作 完成 就 好 ,只 要 完成 了 ,无 论 是 谁 ,大 家 都 可 以 访问 ,不 需要 重复 创建 申请 
操作 。 

> 当 阻 塞 的 线程 继续 执行 时 ,说 明 已 经 获取 到 了 物理 页 面 ,负数 返回 就 可 以 了 。 

> 当然 如 果 之 前 没有 其 他 线程 发 起 针对 此 页 面 的 申请 , 那 就 由 当前 线程 来 发 起 ,做 “第 

一 个 吃 蟒 志 的 人 ”: 执 行 MmRequestPageMemoryConsumer 以 分 配 内 存 页 面 。 这 个 困 数 
执行 两 次 ,第 一 次 不 等 待 ,如 果 第 一 次 不 成 功 则 再 执行 一 次 ,这 一 次 要 等 待 (漫长 的 页 
面 修 豌 操作) 。 如 有 末 还 是 分 配 不 成 功 就 百 接 返回 失败 了 。 

(3) 分 配 物理 页 面 成 功 后 ,判断 是 否 存 在 倒 换文 件 页 面 。 

> 清 雪 页 面 映 射 表 中 对 应 PTE 

> 使 用 内 核子 数 MmReadFromSwapPage 从 倒 换 文件 中 读 取 页 面 内 容 ; 

> 使 用 内 核 阴 数 MmCreateVirtual Mapping 建立 映 映 天 系 ; 

> 使 用 内 核果 数 MmInsertRmap 将 物理 页 面 插 入 工作 集 ; 

> 激活 步骤 (2) 中 创建 或 获取 的 页 面 申请 操作 的 等 待 事件。 

Q 忆 如 果 不 存 在 , 则 只 执行 上 述 最 后 三 步 。 


Process2? 


10.4 共享 映射 区 机 制 


共享 映射 区 
一 个 物理 页 面 可 以 只 属于 一 个 进程 ,也 可 以 属 

于 多 个 进程 ,对 于 属于 多 个 进程 的 情况 我 们 称 为 共 

享 映 射 区 机 制 。 物 理 页 面 以 磁盘 文件 作为 倒 换文 人 人 


件 页 面 ,利用 共享 映射 区 机 制 可 以 做 到 共享 多 个 进 Ee - 
程 的 文件 内 容 , 如 图 10 -17 所 示 。 


系统 调用 NtCreateSection 用 于 创建 内 存 映 射 图 10 -17 共享 映射 区 机 制 
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区 , 按 映 射 文件 种 类 的 不 同 ,NtCreateSection 要 分 别 调用 以 下 几 个 子 国 数 ,这 几 个 子 困 数 也 是 
NtCreateSection 的 逻辑 主体 ， 
> 对 于 Windows PE 文件 的 共享 映射 区 调用 MmCreatelmageSection, PE 文件 包含 了 数据 
段 代 但 段 ,资源 段 等 多 个 区 段 ,因此 对 于 PE 文件 的 映射 要 考虑 多 个 区 段 的 问题 。 
> 对 于 普通 文件 映像 的 共享 映射 区 调用 MmCreateDataFileSection 。 普 通 文件 映像 只 有 
一 个 数据 段 ,因此 普通 文件 映像 可 以 看 作 PE 文件 映像 的 一 个 特例 。 
> 对 于 无 目标 文件 的 共享 映射 区 (物理 页 面 ) 则 调用 MmCreatePageFileSection。 创 建 多 
进程 之 间 的 共享 映射 区 时 采用 这 种 方式 。 
我 们 以 最 简单 的 MmCreateDataFileSection 为 例 来 讲解 创建 共享 有 映射 区 的 过 程 : 
(1) 创建 映射 区 对 象 Section , 这 是 由 对 象 创 建 图 数 ObCreateObject 实现 的 , 实 参 为 
MmSectionObjectType, 表 明 这 是 一 个 映射 区 对 象 类 型 。 
(2) 找到 需要 映射 的 文件 对 象 , 即 通 过 对 象 查找 图 数 ObReferenceObjectByHandle 并 以 
文件 句柄 为 参数 查找 文件 对 象 FileObject。 
(3) 通过 LO 图 数 IoQueryFileInformation 探查 文件 长 度 ,以 确定 映射 区 大 小 的 上 限 。 
(4) 如 有 果 目 标 文 件 尚 未 映射 (FileObject 的 映射 区 对 象 指针 中 尚未 建立 区 段 ) , 则 为 其 创 
建 一 个 映射 数据 段 Segment, 这 个 数据 段 的 类 型 为 MM_SECTION_SECMENT。 
如 图 10 一 18 所 示 ,Section 作为 映射 区 对 象 ,一 方面 关联 了 需要 映射 的 文件 对 象 , 邦 一 方 
面 要 建立 大 二 区 段 ,例如 对 于 PE 文件 要 建立 与 代码 段 ,数据 段 .资源 段 等 相对 应 的 Segment， 
这 时 的 Section 类 型 为 IMAGE_SECTION_OBJECT ,而 Section 采用 ImageSegments 指针 来 指 回 
这 些 Segment; 对 于 普通 文件 映像 ,Section 类 型 为 SECTION_SEGMENT。Segment 比较 重要 的 
字段 有 FileOffset 和 PageDirectory。FileOffset 表示 该 区 段 映射 的 内 容 在 被 映射 文件 内 部 的 偏 
移 ( 可 能 文件 不 会 被 全 部 映射 ,只 是 映射 其 中 的 一 部 分 ) 。PageDirectory 是 个 指向 映射 数据 
段 页 面 表 的 指针 ,映射 数据 段 页 面 表 与 页 面目 录 表 基本 一 致 ,也 是 个 二 级 目录 表 , 只 不 过 映 
射 数 据 段 员 面 表 以 目标 文件 中 的 页 面 号 为 下 标 , 如 图 10 - 19 所 示 。 


本 映射 数据 段 的 起 点 相对 
于 被 映射 文件 内 部 的 侦 移 


Section 


FileOfiset 
seoment 
PageDirectory 
FileObiject 指 针 


DataSsectionObject 
指针 


FileObject | SectionObjectPomter 


映射 数据 段 页 面 表 指 针 ， 指 呵 
SECTION PAGE_ DIRECTORY 结 构 


司 10-18 Section 与 Segment 结构 示 


IMAGE SECTION OBJECT---. 


Segment 拒 针 


SECTION _ SEGMENT---: 


和 


{ 忆 上 诺 
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映 员 数据 眉 


Pomter 
Pomter 


SECTION_PAGE TABLE 
类 型 数组 


图 10 一 19 ”映射 数据 段 页面 表 结构 示意 图 


一 级 和 二 级 页 面 表 的 每 个 表 项 都 是 4 字 广 ,而 每 个 表 又 都 有 1 K 个 表 项 ,因此 与 页 面目 
录 表 一 样 每 一 个 映射 数据 段 页 面 表 都 占用 一 个 4 KB 页 面 。 只 不 过 二 级 页 面 表 的 下 标 是 页 
面 在 目标 文件 中 的 页 面 号 (目标 文件 就 相当 于 整个 虚拟 地 址 空间 )。 

MmCreateDataFileSection 经 历 了 上 述 千 羊 万 耕 , 也 只 是 创建 了 诸如 Section 和 Segment 这 样 
的 数据 结构 ,要 想 使 用 映射 区 还 要 创建 映射 关系 ,这 与 之 前 讲 的 页 面 映射 机 制 的 道理 是 一 致 的 。 

负责 创建 映射 关系 的 是 系统 调用 NtMapViewOfSection ,该 函数 将 一 个 映射 区 对 象 的 一 部 
分 或 全 部 映射 到 采 个 进程 的 用 户 态 地 址 空间 中 。NtMapViewOfSection 的 核心 是 MmMapView 
OfSection, 而 这 个 晴 数 又 调用 MmMapViewOfSegment 来 映射 区 段 ( 例如 对 于 PE 文件 要 映射 
好 几 个 区 段 ) 。MmMapViewOfSegment 的 核心 操作 是 通过 MmCreateMemoryArea 在 进程 的 地 
址 空间 中 创建 这 部 分 的 内 存 区 间 , 这 又 回 到 我 们 熟悉 的 函数 了 。 

MEMORY_AREA 中 的 Data 域 是 个 联合 类 型 , 当 这 个 内 存 区 间 是 虚拟 内 存 类 型 时 指 疝 
Virtual MemoryData 数据 结构 ok 在 前 文 有 所 摘 述 ， 当 为 映射 区 类 型 时 指 回 SectionData 数据 
结构 。 在 本 蔬 中 目 然 束 是 后 着 了 ,这样 串联 下 来 ,根据 虚拟 地 址 可 以 找到 进程 的 内 存 区 间 ， 
从 而 找到 Section 乃至 找到 Segment ,如 图 10 一 20 所 示 。 


站 MEMORY AREA_ SECTION_VIEW 凑 型 


RegionListHead 


Af 性 生 ninTiatad ViewOttset 
MEMORY AREA Data 指 针 Da SectionData 指 针 ew 


FileObject 措 针 


实际 只 映射 了 这 人 么 多 


目标 FileObiject 
1 SectionOtset | VIEWSIZE1 实际 映射 的 内 谷 侍 
| 目标 文件 中 的 偶 移 
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从 图 10 -20 看 出 ,从 MEMORY_AREA 出 发 可 以 找到 Segment , 而 在 SectionData 中 也 保 
存 了 映射 区 在 文件 中 的 仿 移 等 重要 信息 。 


10.5 内 存 和 党 理 机 制 的 改进 


从 Windows Vista 开始 ,在 本 音 介 绍 的 内 存 管 理 机 制 的 基础 上 ,Windows 对 内 存 管理 又 做 
了 重大 改进 ,包括 : 
> 大 量 使 用 无 锁 同 步 技术 或 者 更 细 粒 度 的 锁 , 以 提高 多 核 架 构 下 的 内 存 管理 性 能 ; 
> 文 持 更 大 的 换 页 WO 看 吐 ; 
> 支持 GPU 内 存 结构 管理 ; 
> 更 有 效 地 使 用 TLB 硬件 ; 
> 使 用 闪存 作为 位 盘 与 内 存 之 间 的 中 间 缓 存 (Ready Boost 技术 ,利用 了 闪存 随机 读 写 及 
堆 雁 文 件 谈 写 上 的 优势 来 提高 系统 性 能 ) ; 
> 文 持 动态 内 核 地 址 空间 划分 机 制 , 以 解决 地 址 范围 紧缺 的 问题 ( 目前 还 只 文 持 32 位 
系统 ,64 位 系统 仍然 采用 静态 划分 方式 ) ; 
> 文 持 SuperFetch 机 制 ,利用 内 存 可 用 空间 预 加 载 用 户 可 能 使 用 的 应 用 程序 页 面 , 尽 可 
能 地 避免 系统 发 生 同 步 的 硬盘 页 面 调用 ,让 应 用 程序 以 最 快 的 速度 运行 。 
不 过 SuperFetch 也 是 一 项 鼎 具 争议 的 技术 。 例 如 在 Windows 系统 中 ,如 果 在 一 定时 间 
内 没有 界面 操作 ,类 似 杀 毒 软件 这 样 的 高 内 存 消耗 进程 就 会 被 系统 启动 ,而 原先 用 户 运 行 的 
应 用 进程 的 物理 内 存 页 面 可 能 被 换 出 。 等 到 册 次 进行 界面 操作 时 ,杀毒 软件 等 被 系统 目 动 
启动 的 进程 的 页 面 会 被 换 出 ,原先 运行 的 应 用 进程 被 换 入 。 这 个 反应 的 周期 特别 长 ,给 人 的 
而 SuperFetch 技术 会 跟踪 页 面 的 使 用 历史 ,例如 跟踪 当前 页 面 的 使 用 信息 和 曾经 出 现 
在 内 存 中 的 代码 与 数据 信息 ,以 便 指 示 内 存 管 理 带 将 大 概率 能 用 到 的 磁盘 文件 中 的 数据 和 
代码 预 加 载 到 备用 链表 中 ,以 避免 发 生 那 种 “ 书 到 用 时 方 恨 少 ”的 现象 。 但 是 这 种 技术 也 是 
把 双 刃 全 ,其 有 效 的 程度 取决 于 学 习 的 准确 性 和 有 效 性 ,如 采 准 确 性 较 低 ,会 加 载 很 多 无 用 
的 页 面 ,反而 拖累 了 系统 效率 。 


10.6 ”64 位 系统 下 的 内 存 空间 


与 X86 体系 结构 相 比 ,X64 体系 结构 下 表示 的 地 址 范围 更 大 ,因为 名 义 上 是 64 位 的 地 
址 线 。 

但 实际 上 X64 CPU 对 于 地 址 线 的 使 用 做 了 限制 ,只 使 用 低 48 位 ,高 16 位 闲置 不 用 。 因 
此 X64 体系 结构 下 的 地 址 空间 划分 是 这 样 的 . 

> 用 户 态 空间 地 址 范围 .0x00000000*`00000000 ~ 0x0000FFFF*、 FFFFFFFF， 

> 内 核 态 空间 地 址 范围 .0xFFFF0000*`00000000 ~ OxFFFFFFFF* FFFFFFFF。 
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可 见地 址 空间 的 中 间 有 一 大 片 地 址 范围 是 不 使 用 的 。 而 Windows 64 位 系统 对 地 址 的 
使 用 又 做 了 更 进一步 的 限制 , 即 只 使 用 低 44 位 ,高 20 位 闲置 不 用 ,因此 其 地 址 空间 就 被 划 
分 成 了 两 块 8TB 的 连续 空间 ,如 下 所 示 : 

> 用 户 态 空间 地 址 范围 .0x00000000*`00000000 ~ 0x000007FF* FFFFFFFF，; 

> 内 核 态 空间 地 址 范围 :0xFFTFF800`00000000 ~ OxFFFFFFFF* FFFFFFFF。 

在 X64 体系 结构 下 ,地 址 空间 的 布局 也 与 X86 体系 结构 下 的 差异 很 大 。 图 10-21 是 
X64 体系 结构 下 的 内 核 态 空间 布局 。 


Start End Size Description 

FFFF0800 00000000 FFFFF67F FFFFFFFF 2381B Unused System Space 
FFFFF680 00000000 FFFFF6FF FFFFFFFF 2120GB PTE Space 

FFFFF700 00000000 FFFFF7 YF FFFFFFFF 512GB Hyperspace 

FFFFF780 00000000 FFFFF780 00000FFF 4K Shared System Page 
FFFFF780 00001000 FFFFF7FF FFFFFFFF 512GB-4K System Cache Working Set 
FFFFF800 00000000 FFFFF87F FFFFFFFF 512GB Initial Loader Mappings 
FFFFF880 00000000 FFFFF89F FFFFFFFF 128GB Sys PiEs 

FFFFF8a0 00000000 FFFFF8bF FFFFFFFF 128GB Paged Pool Area 
FFFFF900 00000000 FFFFF97F FFFFFFFF 312GB Session Space 

FFFFF980 00000000 FFFFFa7b FFFFFFFF 1TB Dynamic Kernel VA Space 
FFFFFa80 00000000 *ntliMmNonPagedPoolStart-1 6TB Max PFN Database 
*ntliMmNonPagedPoolStart *ntliMmNonPagedPoolEnd 512GB Max Non-Paged Pool 


FFFFFFFF*FFcO0000 FFFFFFFF°FFFFFFFF 4MB 


图 10 一 21 X64 体系 下 内 核 态 空间 布局 


在 64 位 Windows 系统 下 ,上 图 中 某 些 地 址 段 超过 了 44 位 地 址 线 的 分 布 范 围 ,但 也 只 是 
在 Windows 内 部 使 用 ,并 不 作为 通用 的 存储 空间 。 

最 后 要 注意 的 是 ,由 于 64 位 系统 下 PDE/PTE 的 长 度 为 8 字 节 ,因此 一 个 内 存 页 面 (4 
KB) 中 只 能 包括 $12 个 PDE/PTE。 对 于 PDE 来 讲 , 一 个 PDE 可 对 应 512 个 PTE ,一 个 PTE 
仍然 代表 了 一 个 4 KB 的 页 面 ,因此 一 个 PDE 只 能 表示 2 MB 的 内 存 空 间 , 这 也 是 虚拟 地 址 
空间 的 默认 分 配 粒 度 。 


本 章 小 结 
本 章 介绍 了 在 Windows 中 内 存 的 管理 ,这 里 的 内 存 包括 虚拟 内 存 和 物理 内 存 。 介 绍 了 


虚拟 地 址 空间 和 物理 地 址 空间 的 概念 ,页面 映 冉 和 换 出 机 制 \ 页 面 评 页 异常 处 理 过 程 \ 共 至 
映射 区 机 制 等 。 最 后 介绍 了 64 位 系统 下 的 内 存 空间 。 


HAL and Loader Mappings 
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进程 间 通 信 ( Inter-Process Communication ,IPC ) 是 操作 系统 的 重要 机 制 ,包含 了 多 种 实现 手 
段 ,例如 本 地 过 程 调用 ,远程 过 程 调用 命名 管道 .邮件 槽 、 信 号 量 、 等 待 唤 醒 、 互 斥 锁 . 事 件 、 共 享 内 
存 区 .TCP/IP DCOM .WMI 等 。 这 么 多 种 手段 , 面 回 的 也 是 不 同 的 应 用 场景 ,包括 以 下 两 大 类 : 

> 进程 间 数 据 报 文 交换 :本 地 过 程 调用 远程 过 程 调用 、 命 名 管道 .邮件 模 、 共 享 内 存 区 

( 见 前 文 ) .消息 队列 .TCP/IP DCOM WMI 等 ， 

> 线程 间 协 同 : 信 号 量 .等 待 唤醒 . 互 斥 锁 .事件 等 。 

鉴于 关于 线程 间 协 同 的 公开 资料 非常 多 ,这 里 不 再 敖 述 ,本章 重点 介绍 进程 间 数 据 报 文 
交换 中 的 本 地 过 程 调 用 和 命名 管道 ,同时 也 会 介绍 跨 主 机 进程 间 的 交互 方式 WMI( 虽 然 一 
般 不 把 WMI 算 作 IPC 手段 ) ,这 几 种 也 是 目前 较为 "Well Known” 的 方式 。 

本 章 将 按照 图 11 一 1 所 示 的 提纲 对 这 三 者 进行 介绍 。 人 至 于 其 他 手段 ,TCP/IP 机 制 和 消 
息 队 列 作 为 不 同 主机 进程 间 通 信 的 基本 手段 将 在 后 文 介绍 ;远程 过 程 调用 是 基于 TCP/IP 机 
制 的 ,因此 理解 了 TCP/IP 机 制 ,远程 过 程 调用 问题 就 迎刃而解 了 ;邮件 槽 机 制 目 前 用 得 非常 
少 , 这 几 种 手段 就 不 占用 篇 幅 了 。 

_ 冯 万 的 通信 寺 程 
© 


特性 
高 级 本 地 过 程 调用 9 /一 一 一 
一 飞 ， 与 本 地 过 程 调用 的 异同 
“命名 管道 与 TCP 的 通信 过 程 类 比 
“命名 管道 道 循 的 驱动 框架 、 功 能 派 遗 画 数 
IPC 机 利己 目 命名 管道 各 数据 结构 及 其 之 间 的 关系 ， 包 括 实例 、 访 问 上 下 文 、CCB 等 
WMI 的 作用 与 架构 


WMI 使 用 者 
WMI 基 础 设施 
WMI 提 供 者 

| WM 数据 的 远程 传输 
图 11-1 本 章 提纲 


WMI © 


WMI 中 的 各 个 角色 日 
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11.1 本 地 过 程 调 用 


11.1.1 本 地 过 程 调用 通信 过 


本 地 过 程 调用 (Local Procedure Call,LPC) 是 同一 主机 操作 系统 进程 则 通信 的 重要 手段 。 
本 地 过 程 调用 与 远程 过 程 调用 ( Remote Procedure Call,RPC) 是 相对 的 。LPC 是 发 生 在 同一 主 
机 内 的 通信 行为 ,故而 称 为 "本 地 ” ;而 RPC 既 可 以 用 于 同一 主机 内 通信 ,也 可 以 用 于 不 同 主机 间 
通信 ,故而 称 为 “远程 ” 。 例 如 创建 进程 线程 时 通知 环境 子 系统 进程 csrss. exe 就 是 及 用 LPC 机 制 。 

RPC 一 般 基 于 TCPZIP 协议 进行 通信 ,其 将 服务 封装 为 API 供应 用 进程 调用 ,调用 后 请 
求 转化 为 RPC 报 文 并 通过 TCP《 了 PE 协议 在 主机 间 交 互 。LPC 不 采用 TCP/IP 协议 ,而 是 采用 
一 种 被 称 为 “端口 通信 ”的 机 制 ,虽然 这 种 方式 的 运作 过 程 与 TCP 方式 的 通信 非常 相似 ,但 
其 实 是 风 马 牛 不 相 及 的 两 回 事 。 

这 里 要 强调 一 下 ,虽然 说 是 “进程 间 通 信 ” ,但 实际 上 通信 的 双方 是 线程 (线程 才 是 操作 
系统 调度 的 基本 单位 ) ,因此 LPC 本 质 上 是 本 地 系统 中 两 个 线程 间 的 数据 拷贝 和 操作 同步 。 
在 线程 执行 体 数据 结构 ETHREAD 中 ,凡是 市 LPC 的 域 都 是 与 本 地 过 程 调用 相关 的 ,例如 ; 

> LpcReplyChain :用 于 将 本 线程 挂 和 人 目标 冰 口 的 竺 应答 线 程 队列 ; 

> LpcReplyMessage: 指 站 本 线程 发 出 的 请 求 报 文 , 并 用 来 回收 应 答 报 文 ; 

> LpcReceivedMessageld :本 线程 最 近 收 到 的 尚未 应 答 的 报 文 的 序号 ; 

> LpcReplyMessageld :已 发 送 的 请 求 报 文 的 序号 ,其 应 答 的 序号 也 应 该 相同 。 

LPC 与 之 前 摘 述 过 的 视窗 型 报 文 有 些 像 ,两 者 都 是 通过 线程 间 同 步 的 手段 来 操作 信息 
的 交互 ,而 数据 的 拷贝 又 都 是 通过 共享 映射 区 机 制 实现 的 。 

我 们 说 LPC 本 质 上 是 器 口 机 制 。 问 口 分 为 通信 闯 口 和 连接 闪 口 两 类 ,前 者 负责 报 文 传 
输 .数据 交互 ,后 者 负责 线程 间 建 立 连接 。LPC 将 线程 也 分 为 服务 端 线 程 和 客户 端 线程 , 特 
别 像 TCP 通信 中 的 服务 端 与 客户 端的 概念 : 

> 客户 病 线 程 品 服务 端 线 程 建立 连接 以 建立 通信 通道 ; 

> 服务 病 线 程 监听 端口 以 等 每 客户 六 线 程 的 连接 ; 

> 服务 闹 线 程 在 收 到 客户 闹 线 程 建立 连接 的 请 求 后 接受 该 请 求 ; 

> 客户 端 线程 与 服务 端 线程 建立 连接 后 ,双方 各 维持 一 个 端口 , 称 为 通信 端口 。 

从 上 述 流 程 可 以 看 出 ,其 交互 服务 的 过 程 与 TCP 方式 的 网 络 通信 服务 的 过 程 非常 相似 ， 
而 LPC 依赖 的 痊 口 机 制 也 是 信用 了 TCP 的 端口 概念 (例如 连接 端口 类 似 于 TCP 监听 端口 ， 
通信 冰 口 类 似 于 已 经 建立 连接 后 的 传输 训 口 ) 。 由 于 流程 非 党 简单 (如 图 11 -2 所 示 ) ,这 里 
就 不 冉 详 细 介 绍 了 ,但 要 注意 以 下 几 点 : 

> 第 一 步 中 创建 的 命名 闪 口 ,其 名 称 需 要 让 客户 病 线 程 知道 ,否则 就 无 法 打开 端口 建立 

连接 。 

> TCP 与 LPC 都 是 双 工 的 , 即 客户 端 与 服务 端 都 可 以 主动 发 送 数 据 。 
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客户 病人 线程 服务 痛 监 听 比 和 在 服务 端 LPC 线 程 


1. 创建 命名 的 连接 端口 : 
NtCreatePort 


2. 监听 创建 的 连接 端口 : 
NtListenPort 


3. 回 正 在 监 昕 的 端口 发 起 Connect 
连接 : NtConnectPort 


4 接受 连接 请 求 : 6. 创建 新 的 服务 端 线 程 使 
NtAcceptConnectPort 之 与 客户 端 线程 通信 
5. 唤醒 ， 并 返回 通道 句柄 : 


NtCompleteConnectPort | 7. 继续 监听 创建 的 连接 
靖 口 ， NtListenPort 


8. 加 服务 端 线程 发 送 报 文 ， 发 送 报 文 ， 唤 醒 LPC 线 程 


9. 被 唤醒 ， 提 供 LPC 服 务 
NtRequestWaitReplyPort 彼 唤醒 ， 提 人 服务 


10. 问 客户 端 线 程 发 送 应 管 报 文 : 
NtReplyWaitReceivePort 


恒 11-2 本 地 过 程 调用 的 通信 流程 
所 谓 报 文 发 送 , 驶 是 将 报 文 挂 到 对 方 羊 口 的 报 文 队列 中 ,并 将 对 方 线程 唤醒 。 
> 报 文 传输 过 程 中 ,如 果 客 户 端 发 送 的 报 文 + 数据 的 总 长 度 不 大 于 256 字 节 , 则 数据 随 
看 报 文 一 起 发 送 , 即 在 同一 个 缓冲 区 中 传输 ;如 果 大 于 256 字 广 ,就 要 通过 共 至 内 和 存 
来 发 送 , 具 体 地 说 ,客户 端 线程 和 服务 端 线 程 同时 映射 一 块 共享 内 存 , 通 过 LPC 进行 
同步 控制 ,通知 数据 到 达 , 如 图 11 -3 所 示 。 


ClientView: 映射 ServerView: 映射 
11 -3 大 数据 量 的 LPC 传输 


11.1.2 高 级 本 地 过 程 调用 


不 过 , 随 关 高 级 本 地 过 程 调用 (Advanced Local Procedure Call, ALPC ) 的 引入 ,传统 的 
LPC 机 制 趋 于 淡化 。ALPC 是 一 种 高 速 .可 伸缩 、 安 全 的 IPC 机 制 ,可 以 传递 任意 大 小 的 消 
县 ,因此 被 应 用 于 与 csrss. exe 通信 、Winlogon 与 本 地 安全 认证 子 系统 服务 进程 lsass. exe 通 
信和 ,错误 报告 等 诸多 场景 。 

ALPC 与 LPC 的 通信 机 制 相同 ,都 具有 连接 端口 和 通信 端口 ,并 且 都 是 基于 TCP 式 的 监 
听 和 连接 机 制 ,消息 传递 的 机 制 也 大 致 相同 ,但 ALPC 增加 了 一 个 消息 队列 ,这 是 消息 传递 
过 程 中 最 大 的 不 同 。 同 时 ,ALPC 支持 三 种 消息 交换 方式 ,日 支持 消 朋 取消 机 制 ,如 下 所 示 : 

> 双 缓 冲 机 制 :内 核 从 发 送 线程 中 拷贝 了 要 发 送 的 消息 ,然后 切换 到 目标 线程 ,目标 线 

程 从 内 核 氨 贝 这 个 消息 。 这 种 发 送 方式 与 传统 LPC 的 发 送 方式 大 致 相同 。 
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> ALPC 对 象 区 机 制 :发 送 病 和 目标 方 线程 都 映射 该 内 存 区 的 视图 ,这 与 传统 LPC 机 制 
也 并 无 不 同 。 

> 消息 区 机 制 :消息 存 放 在 内 存 摘 述 符 列 表 (MDL) 构 成 的 消息 区 中 ,这 个 消息 区 对 应 的 
物理 页 面 被 映射 到 内 核 态 地 址 空间 中 ,使 得 双方 的 线程 都 映射 这 一 部 分 内 核 态 内 存 

空间 ,而 这 部 分 空间 无 论 是 虚拟 地 址 还 是 物理 地 址 都 是 固定 的 。 这 种 机 制 的 效率 比 

双 缓 冲 机 制 要 高 得 多 。 

ALPC 也 对 异步 通信 机 制 做 了 改进 ,提供 了 三 种 不 同 的 异步 通信 模型 : 

> ALPC 完成 列表 机 制 :ALPC 内 部 的 完成 列表 是 一 种 非 阻 塞 的 数据 结构 ,使 用 者 可 以 
日 由 选择 同步 方法 (被 动 事 件 机 制 或 主动 查询 机 制 等 ) 。 

基于 完成 端口 的 机 制 : 完 成 痕 口 是 Windows 中 的 一 种 IO 请 求 机 制 , 后 文 会 详细 介 
绍 ,使 用 该 机 制 可 以 使 线程 每 次 获取 多 个 消息 ,提高 IO 性 能 。 

> 基于 执行 体 回调 对 象 的 通知 机 制 :使 用 者 向 ALPC 注册 回调 接口 , 当 ALPC 接收 到 消 
县 时 调用 该 接口 ,并 将 报 文 回调 给 注册 方 。 


11.2 命名 管道 


命名 管道 ( Named Pipe) 作 为 Windows 传统 的 IPC 机 制 目前 已 经 很 少见 了 ,这 是 因为 更 
简单 .兼容 性 更 好 .通用 性 更 强 吞吐 量 更 大 的 IPC 机 制 (例如 TCPZIP ) 越 来 越 成 熟 和 多 样 
化 。 但 是 作为 Windows 仍然 保留 的 一 部 分 功能 ,我们 还 是 简要 介绍 一 下 其 原理 。 

LPC 作为 操作 系统 的 固有 机 制 是 与 内 核 绑 定 在 一 起 的 ,涉及 的 数据 绪 构 (如 ETHREAD ) 和 
系统 调用 也 都 是 内 核 回 有 的 组 件 和 接口 。 但 命名 管道 不 同 , 它 是 基于 Windows 的 管道 驱动 实 
现 的 ,与 原生 内 核 体 系 的 运作 机 制 关系 不 大 ,命名 省 韦 芝 循 设备 驱动 框 淋 。 

命名 管道 是 双 工 通信 的 , 既 可 以 是 单 点 对 单 点 模式 ,也 可 以 是 多 点 eal 电 模 式 。 同 时 命 
名 管道 支持 跨 主 机 方式 通信 ,这 比 本 地 过 程 调用 更 具有 普 适 性 。 命 名 管道 的 通信 流程 与 本 
地 过 程 调 用 非常 相似 ,都 遵循 TCP 式 的 “打开 端口 一 监听 并 口 一 建立 连接 一 接受 连接 一 发 
送 报 文 "的 一 般 流程 ,如 图 11 -4 所 示 。 

1. 创建 命名 管道 : 
NtCreateNamedPipeFile 


ConnectNamedPipe 


悦 11-4 命名 管道 的 通信 流程 
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easas py 


从 图 11 -4 可 以 看 出 ,除了 创建 和 监听 命名 管 址 之 外 ,其 他 哨 数 都 是 普通 的 系统 调用 。 
其 实 这些 调 用 (包括 创建 和 监听 命名 管道 ) 本 质 上 还 是 与 驱动 程序 打交道 ,因为 它们 在 系统 
调用 序列 的 最 后 是 与 IO 管理 器 打交道 的 ,IO 管理 器 会 将 针对 设备 (命名 管道 在 操作 系统 
中 被 看 作 IO 设备 ) 的 系统 请 求 分 解 成 IRP(1/0 请 求 包 ) ,进而 与 驱动 程序 通信 。 

例如 管道 创建 困 数 NtCreateNamedPipeFile 最 终 调 用 LO 管理 器 的 IoCreateFile ,作为 实 
参 的 设备 类 型 为 CreateFileTypeNamedPipe ,这 是 Windows 命名 管道 的 设备 对 象 类 型 ;而 系统 
调用 NtCreateFile 用 来 打开 命名 管道 设备 ,作为 实 参 的 衣 备 类 型 则 是 更 为 普 适 的 CreateFile 
TypeNone。 


出 \ | Name :， Type SymbLink 
一 bh ArcName 本 LanmanServer Device 
> -由 BaseNamedObjects :i |ltdio 
一 此 Callback 
a bh Dewice 
:Harddisk0 
i Http 
一 出 Driver 
局 Flesystem 
一 几 GLOBAL?? 
加 局 KernelObjects 半 Ndis ' Name: NamedPipe 
一 几 KnownDlls NdisTapi 
— jh knownDlls32 午 Ndisuio 
-NLS | 1 量 NdisWan 
一 月 ObjectTypes [本 NdisWanBh li Quota Charges 
: 中 RPC Control | [而 NdisWanilp li Paged: 1024 
一 用 Security | 国 mdiswanIpv6 
-月 Sessions | 画 NDMPl 


图 11-S Windows7 下 的 命名 管道 设备 对 象 ( 尚未 创建 设备 实例 ) 


通过 IoCreateFile 创建 了 命名 管道 设备 对 象 后 ,在 整个 系统 的 对 象 目 录 中 就 会 出 现 对 应 
的 节点 ,例如 “\Device\NamedPipe\XXX”, 如 图 11 一 5 所 示 。 图 11 -5 只 是 展示 了 命名 管道 
设备 对 象 ,创建 了 管道 设备 实例 后 会 在 NamedPipe 节点 下 生成 所 创建 的 设备 实例 名 称 。 在 
上 面 这 个 目录 中 ,设备 对 象 NamedPipe 提供 对 象 解析 函数 ,以 方便 设备 管理 器 根据 句柄 或 设 
备 路 径 找 到 具体 设备 对 象 所 属 的 目录 ,从 而 找到 具体 的 设备 实例 。 

前 文 说 过 ,命名 管道 遵循 的 是 设备 驱动 框架 , 即 存在 命名 管道 驱动 模块 ,每 个 驱动 模块 
部 会 有 一 个 入口 卫 数 DriverEntry ,就 像 DLL 模块 也 有 个 入 口 清 数 DllMain 一 样 , 在 驱动 程序 
安装 的 时 候 被 调用 。 驱 动 的 形态 一 般 是 SYS 文件 ,与 DLL 文件 一 样 ,都 是 Windows PE( 可 移 
植 执行 ) 文 件 , 如 图 11 -6 所 示 。 后 面 的 草 市 中 我 们 会 对 驱动 框架 和 PE 文件 做 详细 介绍 ,这 
里 并 不 著述 。 


Device 
| 园 Mailslot Device 
| [MailslotRedirector SymbolicLink \Device\Mup\:Mailslot... 
| MountPointManager 
本 Mup 
i 号 NamedPipe 
nativewifip ic Basic Information 


NeonPagad: 384 


标识 ，PE 。 处 理 器 平台 : AMD 64 (Ka) 可 选 头 部 大 小 : 
: 回执 行 妈 件 ][ 太 内 存 支 持 (268)] 
段 信息 
代码 大 小 : 0x9200 Bytefs) 
入 口 地 址 : ”gd7ac RVA 
民 码 段 基 盾 : Oxi000 RVA 
数据 息 基 扯 : Oxi0000 RYA 


子 系统 类 型 ， 无 须 子 系统 [设备 优先 装载 地 址 ; 0x0 


核 整 (内 存 : 0x1000 
拱 信 息 校 整 文件 ): 。 0x200 
已 初始 化 : 1800 Byte(s) ”内存 映像 大 小 : 0x11000 Byte(s) 
未 初 蛤 化: mn Byte(s) 所 有 头 部 大 小 : 0xs400 Byte(s) 


货 件 智和 np 和合 .55 支 小 :44032 bytes 
a Ci\llaersirNV Desktaninnfs. svs 
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在 Windows 中 命名 管道 的 驱动 程序 是 npfs. sys, 其 入 口 函 数 负 员 创 建 管 道 设备 对 象 ,并 
初始 化 设备 对 象 的 参数 域 住 。 驱 动 程序 是 在 系统 初始 化 的 时 候 加 载 的 ,因此 在 用 户 登 录 系 
统 的 时 候 , 驱 动 程序 已 经 加 载 完 了 ,命名 管道 设备 对 象 也 创建 完毕 了 。 

任何 设备 对 象 都 分 为 对 象 本 身 和 扩展 区 两 部 分 ,扩展 区 承载 了 诸多 重要 的 属性 ,例如 设 
备 的 功能 派遣 图 数 .与 该 类 设备 相关 的 特定 属性 等 。 命 名 管道 设备 对 象 如 图 11 -7 所 示 。 


PipeListHead -| FCB -| FCB FCB 
DeviceExtension IRP MJ CREATF 
主 功能 函数 区 一 一 NpfsCreate 
本 
IRP MJ CREATE NAMED PIPE /RCrommedpin 


其 他 主 功能 其 他 主 功能 函数 


图 11-7 入 口 函 数 创建 的 命名 管道 设备 对 象 


设备 对 象 与 设备 实例 的 关系 就 好 比 面向 对 象 语 言 中 的 类 和 对 象 的 关系 。 在 操作 系统 框 
架 下 ,作为 “类 "的 设备 对 象 是 由 驱动 图 数 的 人 口 困 数 创建 的 ; 而 作为 “对 象 " 的 设备 实例 则 
是 由 NtCreateNamedPipeFile 这 样 的 系统 调用 创建 的 。 

人 口哨 数 DriverEntry 创建 命名 管道 设备 对 象 , 对 象 的 符号 链接 为 "\Device\NamedPipe”。 
在 设备 对 象 的 扩展 结构 中 还 有 几 个 重要 的 域 ,包括 PipeListHead 队列 和 设备 主 功能 另 数 。 

每 个 创建 的 命名 管 址 设备 实例 在 设备 对 象 中 都 由 一 个 NPFS_FCB 结构 来 代表 一 个 实 
例 , 其 中 “NPFS” 表 示 命 名 管道 文件 系统 (Named Pipe File System) ,“FCB” 表 示 文 件 控制 块 
(File Control Block ) ,因此 NPFS_FCB 就 是 命名 管 壹 文件 控制 块 ,这 个 控制 块 是 要 挂 到 命名 
管道 设备 对 象 队 列 中 的 , 即 全 局 的 PipeListHead 队列 ,表示 在 命名 管道 设备 对 象 上 存在 了 若 
干 个 实例 (一 个 类 可 以 有 多 个 实例 ) 。 

主 功 能 银 数 是 每 个 驱动 邦 具 备 的 ,这 是 驱动 程序 框架 规定 的 。 主 功能 负数 定义 了 诸如 
设备 创建 .删除 . 谈 写 等 操作 的 啊 应 图 数 。 这 是 因为 对 于 每 种 具体 的 设备 ,其 创建 和 操作 方 
式 必 然 是 不 同 的 ,内 核 无 法 具备 能 满足 所 有 设备 操作 的 功能 曙 效 ,因此 功能 晒 数 只 能 由 对 应 
设备 的 驱动 程序 日 己 实 现 。 功 能 图 数 指针 存放 在 设备 对 象 的 MajorFunction 数组 中 ,数组 的 
下 标 称 为 主 功能 但 ,表示 IO 管理 带 对 这 种 设备 进行 的 操作 , 员 数 体 本 号 在 驱动 模块 中 。 命 
名 管道 设备 对 象 比 较 重 要 的 主 功能 码 有 IRP_MJ_CREATE_NAMED _PIPE 和 IRP_MJ_ 
CREATE。 主 功能 码 和 功能 男 数 在 后 面 的 设备 张 动 相 关 章 节 中 会 有 许 细 摘 述 。 

在 执行 命名 管道 设备 对 象 的 解析 图 数 (IoParseDevice ) 时 ,会 出 现 以 下 两 种 情况 : 

> 当 遇 到 主 功能 码 为 IRP_MJ_CREATE_NAMED_PIPE 的 请 求 时 , 意味 着 设备 类 型 是 

CreateFileTypeNamedPipe, 这 表示 创建 命名 管道 设备 对 象 , 此 时 调用 主 功 能 晒 效 
NpfsCreateNamedPipe。 
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> 当 遇 到 主 功能 码 为 [RP_MJ_CREATE 的 请 求 时 ,意味 着 设备 类 型 是 CreateFileTypeNone， 
这 表示 打开 命名 管道 ,此 时 调用 主 功能 函数 NpfsCreate。 

1/O 管理 器 每 次 调用 NpfsCreateNamedPipe 或 NpfsCreate 时 都 会 以 一 个 FILE_OBJECT 来 
表示 本 次 访问 的 上 下 文 , 因 此 也 只 有 创建 或 打开 这 样 的 操作 才 会 产生 这 个 数据 结构 。 一 个 
设备 实例 可 能 会 有 多 个 FILE_OBJECT 上下文, 代表 了 多 次 的 访问 ,例如 一 个 管道 可 能 打开 
多 条 连接 ,每 一 条 连接 就 代表 了 一 次 访问 。 

命名 管道 设备 实例 中 以 上 下 文 控制 块 (Context Control Block,CCB ) 来 代表 一 个 服务 并 
口 。 在 命名 管道 中 同样 有 客户 疹 和 服务 端 之 分 ,但 无 论 是 哪 一 训 , 要 通信 和 则 必须 有 服务 端口 
(CCB) ,有 几 个 连接 就 要 有 几 个 服务 端口 (CCB ) ,当然 一 个 命名 管道 设备 实例 的 CCB 也 是 
有 上 限 的 。 可 以 对 比 TCP 方式 的 连接 机 制 , 它 也 有 端口 ,服务 端 也 有 端口 数量 上 限 。CCB 
包含 了 一 个 恋 写 内 存 缓冲 区 和 这 个 缓冲 区 的 谈 指 针 与 写 指 针 , 可 以 看 出 这 是 个 循环 缓冲 队 
列 。 同 时 CCB 中 还 有 个 PipeState 字段 来 表示 状态 ,这 些 状 态 包括 : 

> FILE_PIPE_DISCONNECTED_ STATE :尚未 连接 状态 ; 

> FILE_PIPE_LISTENING_STATE :正在 监听 状态 ; 

> FILE_PIPE_ CONNECTED_ STATE :连接 成 功 状态 ; 

> FILE_PIPE_CLOSING_STATE :连接 关闭 状态 。 

除了 上 述 几 个 重要 的 域 ,还 包括 : 

> ConnectEvent :事件 对 象 用 于 阻塞 正在 寻找 监听 CCB 的 客户 闪 线 程 ,或 者 被 监听 方 线 

程 (服务 哨 线程) 激活 以 唤醒 正在 等 竺 的 客户 端 线程 ; 

> ReadEvent: 事 件 对 象 用 于 在 读 出 方 线程 发 现 无 数据 可 读 时 阻塞 自己 ,或 者 被 写 入 方 

线程 激活 以 唤醒 读 出 方 线程 继续 读数 据 ，; 

> WriteEvent: 事 件 对 象 用 于 在 写 入 方 发 现 数 据 缓 冲 区 已 满 时 阻塞 目 己 ,或 者 被 读 出 方 

线程 激活 以 唤醒 写 入 方 线程 继续 写 数 据 。 

除 此 之 外 CCB 还 包括 一 个 用 于 指明 对 端 CCB 的 OtherSide 域 以 及 一 些 其 他 属性 。 

一 个 NPFS_FCB 结构 中 包含 一 个 ServerFCBListHead 链表 和 一 个 ClientFCBListHead 链 
表 ,分 别 挂 载 服务 病 CCB 和 客户 问 CCB , 厂 服 务 端 和 客户 病 的 CCB 彼此 之 间 有 联系 , 则 说 明 
两 者 之 间 已 经 建立 了 连接 ,如 图 11 -8 所 示 。 


FCBI1 FLB2 


ServerCCBListHead 队 列 ClientCCBListHead 队 列 ServerCCBListHead 队 列 ClientCCBListHead 队 列 
CCB CCB CCB CCB 


| 


11-8 FCB 与 CCB 的 关系 
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主 功能 图 数 NpfsCreateNamedPipe 负责 创建 命名 管 让 设备 实例 , 步 又 如 下 : 

(1) 创建 NPFS_FCB 以 代表 一 个 命名 管道 设备 实例 ,并 将 该 实例 挂 人 设备 对 象 的 
PipeListHead 队列 中 。 

(2) 创建 一 个 CCB 代表 服务 端 端口 ,并 将 该 CCB 挂 人 服务 端的 ServerCCBListHead 队 
列 中 ,同时 将 CCB 设置 为 监听 状态 。 

服务 端 监听 的 时 候 , 服 务 端 和 客户 端 做 如 下 交互 : 

> 在 服务 辣 FCB 的 ClientCCBListHead 队列 中 扫 摘 CCB , 硅 有 正在 等 得 连接 的 CCB 则 激活 

CCB 的 ConnectEvent 事件 以 唤醒 客户 闹 线 程 。 正 是 因为 FCB 的 ServerCCBListHead 队 
列 中 没有 足够 的 CCB 供 客 户 端 CCB 来 连接 , 才 会 导致 客户 并 CCB 未 被 激活 ,从 而 使 客 
户 剖 线程 阻塞 等 待 。 

> 同时 ,将 服务 端 CCB 挂 人 FCB 的 WaiterListHead 队列 ,表示 正在 等 待 被 客户 端 CCB 

的 连接 。 此 时 奋 有 客户 端 CCB 正在 等 竺 连接 , 则 会 因为 线程 唤醒 而 继续 处 理 连 接 
事务 。 

主 功能 函数 NpfsCreate 负责 与 服务 端 建立 连接 ,其 作用 可 以 类 比 TCP 客户 问 的 连接 建 
立 ,包括 如 下 步 又: 

(1) 寻找 目标 管道 的 FCB , 找 不 到 则 返回 失败 。 

(2) 创建 并 初始 化 客户 问 CCB ,例如 分 配 缓冲 区 等 ,此 时 CCB 的 状态 是 FILE_PIPE_ 
DISCONNECTED_STATF 。 

(3) 在 FCB 的 WaiterListHead 队列 中 搜索 处 于 监听 状态 的 CCB ( NpfsCreateNamedPipe 
执行 的 第 二 步 已 将 监听 状态 的 CCB 挂 人 WaiterListHead 队列 了 )。 如 果 搜 索 不 到 再 到 
ServerCCBListHead 队列 中 去 找 , 找 不 到 则 出 错 返 回 。 

(4) 建立 连接 ,即将 客户 端 CCB 挂 人 FCB 的 ClientCCBListHead 队列 中 ,同时 使 两 个 
CCB( 在 服务 疹 找 到 的 CCB 和 客户 病 CCB ) 的 状态 变 成 FILE_PIPE_CONNECTED_STATE 并 
互相 指 加 对方 ,使 双方 连接 起 来 。 

命名 管 站 有 两 种 通信 模式 : 流 模 式 和 报 文 模式 ,前 者 没有 边界 ,后 者 有 边界 。 这 点 可 以 
类 比 TCP 和 UDP 通信 协议 ,TCP 相当 于 没有 边界 的 流 模式 ,要 通过 上 层 协 议 来 区 分 协议 边 
界 ; 而 采用 UDP 时 发 送 和 收 到 的 是 UDP 包 ,既然 是 包 就 有 边界 。 因 此 在 采用 流 模式 通信 和 时， 
双方 的 线程 利用 CCB 的 读 . 写 指针 在 缓冲 区 内 该 写 数据 ,只 有 当 读 、 写 两 个 指针 碰 在 一 起 时 
才 认 为 缓冲 区 为 空 ,此 时 可 以 阻塞 读 线 程 ,但 是 只 要 不 同时 阻塞 谈 、 写 两 个 线程 ,它们 就 可 以 
异步 工作 ,彼此 不 依赖 读 的 进度 或 写 的 进度 ,因此 两 个 线程 的 通信 可 以 看 作 是 异步 的 。 在 采 
用 报 文 模式 时 ,双方 的 线程 每 次 只 交互 一 个 报 文 ,以 保证 读 写 的 时 候 没 有 ”“ 粘 包 ” ,因此 它们 
的 通信 可 以 看 作 是 同步 的 。 

如 图 11 -9 所 示 是 命名 管道 数据 交互 时 的 一 般 流 程 。 该 流程 比较 简单 ,就 不 评 细 摘 述 
具体 细节 和 步骤 了 ,大 家 只 要 明白 读 、 写 两 个 线程 的 数据 交互 是 一 个 走 走 停 停 的 过 程 就 行 
了 , 写 人 方 线程 能 控制 读 出 方 线程 的 执行 ,而 读 出 方 线程 亦 能 左右 写 人 方 线程 的 进度 。 
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写 入 方 线程 恋 出 方 线程 
上 尾 应 用 呵 CCB 在 CCB 的 ReadEvent 
缓冲 区 写 入 数据 上 等 待 以 了 组 蹇 月 己 
个 


CCB 绥 冲 区 已 满 ? 


中 而 此 ~ - 
是 ， 则 激活 ReadEvent 吉本 做 唤醒 
在 CCB 的 WriteEvent 


上 等 竺 以 阻 下 上 月 己 从 CCB 的 缓冲 区 读 
数据 并 区 给 上 屋 应 用 


CCB 绥 冲 区 已 空 ? 
= 天 > 日 
人 是 ， 则 激活 WriteEvent 


上 屋 应 用 加 CCB 


在 CCB 的 ReadEvent 
上 等 待 以 阻 塞 日 已 


图 11-9 命名 管道 数据 交互 的 一 般 流 程 


缓冲 区 写 入 数据 


11.3  WMU 


WMI 的 全 称 是 Windows Management Instrumentation, 即 Windows 管理 规范 ,是 Windows 
的 基础 模块 。 应 用 进程 可 以 通过 WMI 脚本 (VB 脚本 ) 管理 本 地 和 远程 计算 机 上 的 资源 , 例 
如 CPU 序列 号 等 。WMI 屏蔽 了 Windows API 不 支持 远程 调用 或 脚本 调用 的 问题 ,使 脚本 语 
言 可 以 通过 统一 的 WMI 访问 只 有 API 才能 访问 到 的 资源 。 不 过 对 于 脚本 语言 来 说 这 有 个 
有 前提; 必须 支持 ActiveX 技术 。 

因此 ,WMI 更 像 RPC 手段 的 一 种 ,并 且 是 专门 用 于 获取 操作 系统 质 源 的 。 基 于 此 ,也 可 
以 把 WMI 看 作 进程 间 通信 的 手段 ,虽然 WMI 通信 既 不 能 双向 ,又 对 交换 的 数据 作 了 限定 。 

WMI 是 对 WBEM( Web-Based Enterprise Management ,基于 Web 的 企业 管理 ) 模型 的 一 种 
实现 。WBEM 模型 规范 了 工业 界 企 业 网 络 中 资源 的 摘 述 和 使 用 ,由 DMTF ( Distributed 
Management Task Force ,分 布 式 管理 任务 组 ) 在 包括 Compaqg .Sun Microsoft 在 内 的 许多 厂商 的 
帮助 下 创立 ,其 中 CIM (Common Information Model, 公共 信息 模型 ) 和 MOF ( Managed Object 
Format ,托管 对 千 格 式 ) 组 件 为 WMI 提供 了 主要 文 持 。 

CIM 用 来 命名 计算 机 的 物理 和 逻辑 单元 ,例如 磁盘 分 区 .应 用 进程 实例 等 。 它 是 面向 对 
象 的 模型 ,具有 类 和 对 象 的 概念 ,其 中 : 

> 对 象 代 表 关 系统 里 被 管理 的 一 个 具体 的 单元 。 

> 类 是 被 管理 单元 的 模板 。 
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> 命名 空间 是 类 的 集合 ,一 般 每 个 命名 空间 都 是 面向 特定 的 管理 领域 的 。 

CIM 分 为 核心 模型 .公共 模型 和 扩展 模型 三 个 层次 。 其 中 核心 模型 包含 了 对 所 有 管理 
领域 都 通用 的 类 定义 ;公共 模型 包含 了 对 特定 管理 领域 通用 的 类 定义 ;扩展 模型 包含 了 与 
Windows 具体 技术 有 关 的 类 定义 。 

WMI 的 作用 一 是 获取 信息 ,二 是 提供 数据 ,这 两 个 功能 的 提供 者 分 别 是 WMI 类 (WMI 
Classes) 和 WMI 提供 者 (WMI Provider)。 所 有 的 WMI 对 象 都 使 用 类 SQL 查询 语言 一 一 
WQL 来 进行 信息 获取 。 

下 面 我 们 借用 MSDN 对 于 WMI 的 描述 (如 图 11 - 10 所 示 ) 来 讲解 WMI 架构 。 


网 络 客户 端 应 用 


C/C++ 
(3) -一 


使 用 痢 COM 互 操作 
(管理 类 应 用 ) WMI 脚 本 APl 
WMI COM API 
COM/DCOM 


x 
WMI 基础 设施 | 
一 oo | 人 


STR Cimv2 WMII 他 WMI COM 互 操作 
(1) 提供 者 提供 者 - 


WMI 
服务 提 
供 者 和 : 从 者 所 让 网 络 WMI 提 供 者 
托管 对 旬 实体 管理 实体 “| | ative cad 
Native C/C++ 网 络 管理 实体 
图 11-10 MSDN 对 于 WMI 架构 的 描述 
1. WMI 使 用 者 


WMI 使 用 者 (WMI Consumers ) 位 于 WMI 构架 的 最 上 层 , 是 WMI 的 载体 ,可 以 查询 和 枚 
举 数据 ,也 可 以 运行 WMI Provider 的 方法 ,还 可 以 回 WMI 订阅 消息 。 当 然 这 些 操作 都 要 有 
相应 的 Provider 来 提供 。 无 论 采 用 什么 样 的 语言 (C++ 、VB 脚本 、. NET 等 ) 来 使 用 WMI, 最 
终 都 是 通过 COM 接口 实现 了 对 WMI 资源 的 访问 。 

2. WMI 基础 设施 

WMI 基础 设施 (WMI Infrastructure ) 是 Windows 系统 的 系统 组 件 ,包含 两 个 模块 : 
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Winmemt( WMI 服务 ) 和 WMI Repository ( WMI 存储 库 )。 其 中 WMI 存储 库 是 通过 WMI 
Namespace( WMI 命名 空间 ) 组 织 起 来 的 。 

系统 启动 时 ,WMI 服务 会 创建 诸如 root\ default、root\cimv2 或 root \subscription 这 样 的 
WMI 命名 空间 ,同时 会 预 安装 一 部 分 WMI 类 的 定义 信息 到 这 些 命名 空间 中 。 其 他 命名 空间 
是 在 操作 系统 或 者 应 用 进程 调用 相关 的 WMI 提供 者 时 才 被 创建 出 来 的 。 此 外 ,WMI 存储 库 
是 用 于 存储 WMI 静态 数据 的 存储 空间 ,我 们 获取 系统 资源 信息 都 是 通过 WMI 存储 库 来 实 
现 的 。 

WMI 服务 扮演 着 WMI 提供 者 .管理 应 用 进程 和 WMI 存储 库 之 间 的 协调 者 角色 。 一 般 
来 说 , 它 是 通过 一 个 共享 的 服务 进程 svchost. exe 来 实施 的 。 当 第 一 个 管理 应 用 向 WMI 命名 
空间 发 起 连接 时 ,WMI 服务 将 会 启动 ; 当 管理 应 用 不 再 调用 WMI 时 ,WMI 服务 将 会 关闭 或 
者 进入 低 内 存 状 态 。 

WMI 服务 和 上 层 应 用 进程 之 间 是 通过 COM 接口 来 通信 的 , 当 一 个 应 用 进程 通过 接口 向 
WMI 发 起 请 求 时 ,WMI 将 判断 该 请 求 是 请 求 静 态 数 据 还 是 动态 数据 : 

> 如 果 请 求 的 是 一 个 静态 数据 ,WMI 将 从 WMI 存储 库 中 查找 数据 并 返回 ; 

> 如 果 请 求 的 是 一 个 动态 数据 ,比如 一 个 托管 对 象 的 当前 内 存 情况 ,WMI 服务 将 请 求 传 

递 给 已 经 在 WMI 服务 中 注册 的 相应 的 WMI 提供 者 ,WMI 提供 者 将 数据 返回 给 WMI 
服务 ,WMI 服务 再 将 结果 返回 给 请 求 的 应 用 。 

3. WMI 提供 者 

WMI 提供 者 (WMI Provider) 是 监控 一 个 或 者 多 个 托管 对 象 的 COM 接口 。 所 谓 托管 就 
是 任意 逻辑 或 物理 组 件 都 可 通过 WMI 进行 发 布 和 管理 ,包括 系统 、 人 磅 盘 、 外围 设 备 .事件 日 
志 等 方方面面 的 资源 都 可 被 托管 。 一 个 托管 对 象 ( Managed Object ) 就 是 一 个 逻辑 或 者 物理 
组 件 ,比如 硬盘 驱动 硕 、 网 络 适 配送 数据库 系统 .操作 系统 .进程 或 者 服务 ,在 Windows 中 害 
义 为 Win32_Process 、Win32_Service 、AntiVirusProduct、Win32_StartupCommand 等 对 象 。 和 驱 
动 程序 相似 ,WMI 提供 者 通过 托管 对 象 向 WMI 服务 提供 数据 ,同时 将 WMI 服务 的 请 求 传递 
给 托管 对 象 。 

从 文件 的 角度 来 说 ,WMI 提供 者 是 由 一 个 实现 业务 逻辑 的 DLL 文件 和 承载 着 描述 数据 
和 操作 类 的 托管 对 象 格式 (Managed Object Format) 文件 组 成 ,两 个 文件 都 保存 在 % Windir% 
\System32\Wbem 目录 下 。 每 个 WMI 提供 者 都 有 一 个 CLSID 以 便 在 注册 表 中 区 别 相 关联 的 
COM 接口 ,CLSID 用 于 查找 实现 该 提供 者 业务 逻辑 的 实际 DLL 文件 。 

4. WMI 数据 的 远程 传输 

Windows 提供 了 两 种 协议 进行 WMI 数据 远程 传输 ,如 下 所 示 : 

> DCOM( Distributed Component Object Model ,分布 式 组 件 对 象 模型 ) 协议 ; 

> WinRM( Windows Remote Management, Windows 远程 管理 ) 协 议 。 

DCOM 以 TCP 的 135 端口 作为 监听 端口 , WinRM 采用 TCP 的 $985(HTTP ) 或 5986 
(HTTPS) 作 为 监听 端口 。WinRM 是 一 种 基于 SOAP 格式 的 设备 管理 协议 ,目前 已 取代 了 
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DCOM 成 为 Windows 主推 的 远程 管理 协议 。 
本 章 小 结 


本 童 介绍 了 进程 间 通 信 机 制 的 相关 概念 。 包 括 本 地 过 程 调 用 (LPC) ,命名 管 壹 和 WMI 
技术 。 
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所 请 Windows PE 文件 ,就 是 Windows 可 移植 执行 ( Portable Executable ) 文件 ,前 文 多 有 
提 及 。 在 Windows 体系 下 ,我们 熟悉 的 DLL、EXE、SYS、COM .OCX 等 格式 的 文件 都 是 文 
件 , 就 像 Linux 的 SO(Shared Object ,共享 对 象 ) 等 ELF(Executable and Linkable Format, 可 执 
行 与 可 链接 格式 ) 文 件 一 样 。PE 文件 的 历史 可 以 追溯 到 1993 年 ,由 Windows NT 系统 引入 ， 
但 是 这 么 多 年 来 其 格式 和 结构 也 没有 发 生 过 大 的 变化 。 

PE 文件 格式 与 Linux 的 ELF 文件 格式 同宗 同 源 ,ELF 文件 包括 ELF 头 、 程 序 头 `. 区 段 和 
区 段 表 头 4 部 分 ,而 PE 文件 则 包括 DOS 头 、.PE 头 `. 区 段 和 区 段 表 头等 ,两 者 的 构成 和 作用 
都 差不多 , 且 两 者 都 是 基于 COFF 文件 格式 发 展 起 来 的 。 所 谓 COFF ,就 是 通用 目标 文件 格 
式 (Common Object File Format) 。 我 们 使 用 编译 硕 时 生成 的 OBJ 文件 就 是 COFF 格式 的 。 本 
章 将 按照 图 12 -1 所 示 的 提纲 并 以 作者 所 用 计算 机 中 的 32 位 动态 库 为 例 话 细 考 查 PE 文件 
的 构成 。 在 介绍 PE 文件 之 前 不 妨 先 来 考察 一 下 COFF 文件 。 

_ 相 对 虚拟 地 址 的 概念 
， 文件 偏 移 地 址 的 概念 
DOS 头 结构 


概念 解释 日 


.Obj 文 件 


—_ 
- - COFF 文 件 
6。 coFF 文 件 格式 : 
PE 文件 ， 
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| 区 段 与 区 段 表 


图 12-1 本 章 提 纲 


12.1 COFF 文件 格式 


COFF 这 种 二 进 制 文件 格式 是 用 来 存储 符号 对 应 的 数据 并 组 织 符号 之 间 的 引用 关系 的 。 
所 谓 符号 ,就 是 一 部 分 二 进 制 数据 的 别名 ,例如 变量 名 、 困 数 名 .字符 串 和 常量 等 。 而 所 谓 引 用 
关系 ,比如 限 数 A 调用 了 哺 数 B, 本 质 上 就 是 函数 A 的 二 进 制 代码 引用 了 因数 B 的 二 进 制 数 
据 。 在 32 位 Windows 系统 下 COFF 文件 格式 如 图 12 -2 所 示 。 
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Bs I 
00 etve. 


[mm me | 
= 


刁 t 品 局 忆 CDOT 
[一 


图 12-2 COFF 文件 格式 
在 编译 代码 的 时 候 ,编译 器 将 每 个 源 文件 编译 成 . obj 文件 ,一 个 源 文件 对 应 一 个 . obj 文 


件 , 而 . obj 文件 就 是 COFF 格式 的 文件 。 但 这 


eh 中 的 中 间 文 件 ， 


每 个 文件 的 代码 和 数据 并 不 完整 ,操作 系统 也 无 法 解释 和 执行 这 些 中 间 文 件 ,因此 还 需要 链 
接 需 将 其 链接 为 可 执行 文件 (例如 DLL、EXE 这 些 格式 的 PE ey 链接 大 是 这 样 处 理 这 


J 将 多 个 . obj 文件 中 相同 的 区 段 合并 成 一 个 区 段 ,以 组 织 成 一 个 具有 代码 和 数据 的 完 


整 二 进 制 文件 ; 
@ 修复 重 定 向 数据 ; 


@) 生成 针对 特定 处 理 器 平台 架构 和 操作 系统 的 可 执行 文件 。 
COFF 文件 格式 包括 以 下 结构 ( 均 以 32 位 Windows 系统 为 例 ) : 


1) 文件 涉 ( Header) 


这 是 描述 COFF 文件 全 部 信息 的 数据 结构 ,因此 没有 文件 头 就 无 法 解析 COFF 文件 。 文 
件 头 包含 了 平台 名 称 、 区 有 段 数目 .符号 表 指 针 、 可 选 头 大 小 .符号 总 数量 .文件 标记 等 重要 数 


据 , 以 下 是 Windows 对 文件 头 的 定义 ， 


typedef struct FILEHEADER 

{ 
unsigned short machine; 
unsigned short numberofSections; 
unsigned long timeDatesStamp:; 


unsigned long pointerToSymbolTable; 


unsigned long numberofsymbols; 


unsigned short sizeOfOptionalHeader:; 


unsigned short characteristics; 
} FILEHEADER, * PFILEHEADER; 


/ /平台 名 称 

// 区 段 数 , 记录 该 COFE 文件 一 共有 多 少 区 段 
/VCOEE 文件 的 创建 时 间 

// 符 号 表 在 文件 中 的 偏 移 

/VCOFE 文件 中 的 符号 总 数量 

// 可 选 头 长 度 , 但 COFE 文件 没有 可 选 头 ,因此 为 0 
// 文 件 标记 , 记录 着 文件 的 属性 
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其 中 ,平台 名 称 的 取 值 可 以 包括 但 不 限于 表 12 -1 中 的 值 。 
表 12-1 COFF 文件 头 中 的 平台 名 称 定义 
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IMAGE_FILE_MACHINE_UNKNOWN 0x0 可 适用 于 任何 平台 
IMAGE_FILE_MACHINE_ALPHA 在 Alpha_AXP 处 理 需 平台 下 运行 
IMAGE_FILE_MACHINE_ARM 在 ARM 处 理 句 平台 下 运行 
IMAGE_FILE_MACHINE_ALPHA64 在 Alpha 64 位 处 理 器 平台 下 运行 
IMAGE_FILE_MACHINE_I386 在 X86 处 理 髓 平台 下 运行 
IMAGE_FILE_MACHINE_IA64 在 X64 处 理 顺 平台 下 运行 
IMAGE_FILE_MACHINE_MIPS16 在 MIPS 16 位 处 理 器 平台 下 运行 
IMAGE_FILE_MACHINE_MIPSFPU 在 MIPS 带 浮 点 处 理 器 平台 下 运行 
IMAGE_FILE_MACHINE_MIPSFPU16 在 MIPS 带 浮 总 处 理 骨 平台 下 运行 
IMAGE_FILE_MACHINE_POWERPC 在 PowerPC 处 理 髓 平台 下 运行 


IMAGE_FILE_MACHINE_R3000 MIPS 平台 小 端 序 
IMAGE_FILE_MACHINE_R4000 MIPS 平台 小 端 序 
IMAGE_FILE_MACHINE_R10000 MIPS 平台 小 端 序 
IMAGE_FILE_MACHINE_SH3 SH3 平台 小 端 序 
IMAGE_FILE_MACHINE_SH4 SH4 平台 小 端 序 


IMAGE FILE MACHINE THUMB 0x1C2 在 ARM_Thumb 处 理 器 平台 下 运行 


从 上 表 可 以 看 出 ,针对 各 种 染 构 的 CPU 平台 ,甚至 包括 精简 指令 集 的 MIPS 架构 ,COFF 
文件 的 平台 名 称 都 具有 相应 的 值 表示 ,而 PE 文件 来 自 于 COFF 文件 ,PE 文件 的 NT 头 中 平 
台 名 称 也 是 相同 的 取 值 ,由 此 可 见 PE 文件 的 “可 移植 性 ”还 真 不 是 浪 得 虚名 。 

2) 区 段 表 (Sections ) 

区 段 分 为 代码 段 (.text) .数据 段 (. data) .只 计数 据 段 (. rdata) 未 初始 化 数据 段 (. bss) 、 
资源 段 (. xsre) .调试 段 (.debug) 等 。 区 段 头 描述 区 段 名 称 .区 段 数据 在 文件 中 的 偏 移 区 自 
符号 数量 . 重 定 癌 数 据 的 偶 移 以 及 行 号 表 数 量 等 信息 ,多 个 区 段 头 组 成 了 区 段 表 。 以 下 是 
Windows 对 区 段 涉 的 定义 : 


typedef struct SECTIONHEADER 


{ 
char name[8 |]: /7/ 区 段 名 称 , 例 如 .text 
unsigdned long virtualSize; /1 虚拟 大 小 ,在 COFE 文件 中 为 0 
unsigned long virtualAddress; / /虚拟 地 址 ,在 COFF 文件 中 为 0 
unsigdned long sizeOfRawData; // 区 段 原始 数据 的 字 节 数 
unsigned long pointerToRawData; // 区 段 原始 数据 在 文件 中 的 偏 移 
unsigned long pointerToRelocations;} // 区 上 段 重 定向 表 在 文件 中 的 偏 移 
unsigned long pointerToLinenumbers;} // 行 号 表 在 文件 中 的 偏 移 
unsigned short numberOfRelocations; // 重 定向 表 个 数 
unsigned short numberofLinenumbers; /7/ 行 号 表 个 数 
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unsigned long characteristics; // 区 段 标识 ,记录 该 区 段 的 属性 
} SECTIONHEADER, * SECTIONHEADER; 


表 12 -2 中 是 区 段 标识 的 取 值 。 
表 12-2 COFF 区 段 头 中 的 区 段 标识 定义 
区 段 标识 定 义 区 段 标识 描述 
IMAGE_SCN_CNT_CODE 区 段 包含 可 执行 代码 
IMAGE_SCN_CNT_INITIALIZED_DATA 0x00000040 区 段 包 含 初始 化 数据 
IMAGE_SCN_CNT_UNINITIALIZED_DATA 区 段 包 含 未 初始 化 数据 


区 段 包 含 注 释 或 其 他 信息 , 比如 . drectve 
区 段 


IMAGE_SCN_LNK_REMOVE 区 段 不 会 成 为 可 执行 文件 的 一 
IMAGE_SCN_ALIGN_1BYTES 0x00100000 区 段 对 齐 粒 度 为 1 字 节 
IMAGE_SCN_ALIGN_4BYTES 区 段 对 齐 粒 度 为 2 字 节 
IMAGE_SCN_ALIGN_XBYTES 区 段 对 齐 粒 度 为 X 字 节 


IMAGE_SCN_LNK_INFO 


IMAGE SCN_LNK_ NRELOC OVFL 区 段 含有 外 部 重 定 癌 表 


IMAGE SCN MEM_ DISCARDABLE \ 当 需 要 时 ,区 上 段 可 能 会 被 丢弃 


IMAGE_SCN_MEM_NOT_CACHED )x0: 区 段 不 能 被 加 入 缓存 
IMAGE_SCN_MEM_NOT_PAGED 区 段 不 会 被 分 页 
IMAGE_SCN_MEM_SHARED 区 段 在 内 存 中 会 被 共享 
IMAGE_SCN_MFEM_READ 00( 区 段 可 以 被 读 取 


IMAGE SCN_ MEM WRITE 区 段 可 以 被 写 人 


3) 符号 表 ( Symbols) 

符号 信息 用 于 拉 述 符号 名 称 、 符 号 类 型 等 ,多 个 符号 信息 构成 了 符号 表 。 符 号 表 在 
COFF 文件 中 相当 重要 ,没有 符号 表 ,链接 器 在 链接 多 个 COFF 文件 时 无 法 识别 函数 代码 和 
全 局 变量 保存 在 文件 中 的 什么 位 置 。Windows 定义 的 从 号 表 如 下 所 示 : 


typedef struct SYMBOL 


{ 
union { 
char name[8|; // 符 号 名 称 , 最 大 长 度 为 8 字 节 
struct 1{ 
unsigned long zero: / /字符 串 表 标识 ,符号 名 超出 8 字 节 时 为 0 
unsigned long offset; // 字 符 串 偏 移 , zero 字段 为 0 时 保存 的 是 字符 串 表 的 索引 值 value 
} er 
} es? 
unsigned long value; // 符 号 值 
short section; /7/ 符 号 所 在 区 段 号 码 
unsigned short type; / /符号 类 型 ,用 于 区 分 符号 是 函数 还 是 非 函 数 
unsigned char Class; / /符号 存储 类 型 ,例如 符号 是 extern 还 是 static 类 型 等 


unsigned char numberOfAuxSymbols; // 符 号 附加 记录 数 
} SYMBOL, * PSYMBOL; 
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4) 字符 串 表 (Strings ) 
字符 串 表 用 于 保存 字符 个 数 超 出 符号 表 和 区 段 头 名 称 数 组 最 大 个 数 的 字符 串 。 
Windows 定义 的 字符 串 表 如 下 所 示 : 
typedef struct STRIGTABLE 
| unsigned int Size; / /记录 字符 串 表 的 所 有 字符 的 总 字 节 数 , 包括 Size 本 身 
char Data[1]; /7 字符 串 表 所 保存 的 字符 串 


} STRIGTABLE, * PSTRIGTABLE 

5) 重 定 问 表 

重 定向 表 的 作用 是 指出 哪些 符号 引用 了 另外 的 符号 以 及 是 用 何 种 方式 引用 这 些 符号 
的 ,但 并 非 所 有 的 被 引用 符号 都 有 重 定 回信 息 ,一 般 情 况 下 只 有 那些 含有 可 执行 属性 的 区 段 
才 会 有 重 定 向 表 , 或 者 说 只 有 当 引 用 符号 的 位 置 和 被 引用 符号 的 数据 的 位 置 不 在 同一 个 区 
段 时 才 会 产生 重 定 回 信息 。Windows 定义 的 重 定 问 表 如 下 所 示 : 


typedef struct RELOCATION 
{ 


unsigned long virtualAddress; // 重 定向 数据 产生 的 位 置 ， Ns 是 基于 本 区 
// 段 的 原始 数据 的 开始 位 置 

unsigned long symbolTableIndex; / /被 引用 的 符号 是 人 0 开始 的 符号 表 索 引 

unsigned short type; // 重 定向 类 型 ， 根据 不 同 的 平台 有 不 同 的 类 型 


} RELOCATION, * PRELOCATION; 


12.2 PE 文件 格式 


目 和 被 Windows NT 引入 以 来 ,PE 文件 的 结构 和 版 本 基本 没有 变化 过 。 对 于 64 位 的 
Windows ,PE 文件 修改 的 地 方 很 少 , 基 本 上 是 把 一 些 32 位 的 域 扩展 为 64 位 ,只 对 极 少 的 域 
做 了 修改 和 增删 ,但 域 的 语义 没 怎么 改变 。 这 一 方面 得 益 于 PE 文件 设计 之 初 的 高 瞻 远 瞩 ， 
为 一 方面 也 看 得 出 Windows 内 核 中 关于 可 执行 文件 的 架构 机制 与 定义 的 一 贯 性 和 连续 性 。 
为 了 区 别 于 32 位 的 PE 文件 格式 ,我 们 将 64 位 的 PE 文件 格式 定义 为 PE32 + 。 

在 详细 介绍 PE 文件 前 先 看 看 相关 概念 


12.2.1 相关 概念 


1. 相对 虚拟 地 址 

相对 虚拟 地 址 ( Relative Virual Address, RVA ) 表示 此 地 址 在 内 存 中 相对 于 基地 址 的 偏 
移 。 每 个 PE 文件 都 会 有 一 个 基地 址 ImageBase ,相对 虚拟 地 址 = 虚拟 地 址 - 基 址 。 图 12 -3 
中 最 后 一 行 的 ImageBase 即 该 DLL 文件 的 基 址 。 当 然 ,编译 出 的 DLL 文件 不 经 修改 地 默认 
者 是 这 个 基 址 (0x10000000) ,而 EXE 文件 一 般 是 0x00400000 ,但 不 可 能 每 个 DLL 文件 都 会 
占据 这 个 基 址 ,也 只 有 第 一 个 加 载 进 来 上 且 基 址 为 0x10000000 的 模块 才 有 六 占据 这 个 位 置 ， 
后 面 的 模块 只 能 由 系统 来 分 配 基 址 。 但 无 论 分 到 什么 地 址 ,相对 虚拟 地 址 都 是 一 个 差 信 ,这 
个 差 值 不 会 随 着 基地 址 的 变化 而 变化 。 
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Size 〇 finitializedData 
SizeOfUninitializedData 
AddressOfEntryPoint 
BaseOfCode 
BaseOfData 


12 一 3 DLL 文件 可 选 头 的 部 分 域 值 
注意 ,相对 虚拟 地 址 中 无 论 是 基地 址 还 是 偏 移 量 都 是 指 PE 文件 在 内 存 中 而 不 是 在 磁盘 
文件 中 的 地 址 ,如 图 12 -4 所 示 。PE 文件 各 区 段 表 和 各 种 文件 头 在 内 存 中 和 在 磁盘 文件 中 
的 布局 是 不 一 样 的 ,这 是 因为 在 内 存 和 磁盘 中 各 区 段 表 对 齐 的 粒度 有 时 是 不 一 样 的 ,后 文 会 


| 
-” SIPGateldodule.dll 


O0005B81D08 


O012ECSC 


00000390 


O0047286 


DO2E0000 


0033c000 
O046B000 
O046C000 


0003C000 
00120000 
O0001000 


0033C000 
O0468000 
O0469000 


12-4 DLL 文件 区 段 头 中 的 相对 虚拟 地 址 


2. 文件 偏 移 地 址 

文件 偏 移 地 址 ( File Offset Address, FOA ) 表示 某 个 位 置 在 磁盘 文件 中 距离 文件 头 基 址 的 
仿 移 。 文 件 偏 移 地 址 从 PE 文件 的 第 一 个 字 节 开始 计数 ,起 始 值 为 0。 

3. 对 齐 

对 齐 ( Alignment) 分 为 内 存 对 齐 (Section Aligment) ,文件 对 齐 ( File Aligment) 和 资源 数据 
对 齐 三 种 方式 。 

在 32 位 的 Windows 系统 中 ,一 个 内 存 页 面 是 4 KB ,而 PE 文件 头 或 区 段 在 内 存 中 必须 
占据 完整 的 内 存 页 面 。 例 如 PE 文件 头 的 大 小 为 3.5 KB ,那么 它 在 内 存 中 会 占用 4 KB , 即 1 
个 页 面 ,剩余 的 0.5 KB 会 置 零 ; 再 比如 代码 段 (.text) 占 用 4.1 KB ,那么 它 在 内 存 中 将 占用 有 8 
KB, 即 2 个 页 面 ,剩余 3.9 KB 会 置 去 。 这 部 分 置 雪 的 区 域 叫 作 * 空 际 ”, 可 以 利用 空 际 来 扩 
展区 段 或 者 增加 新 的 区 段 ,这 也 是 代码 打 补 丁 时 常用 的 做 法 。 类 似 这 种 占据 完整 内 存 页 面 
的 方式 就 叫 作 内 存 对 齐 ,内存 对 齐 的 粒度 由 PE 文件 头 的 SectionAligment 字段 定义 。 

在 磁盘 中 也 存在 上 述 对 齐 的 问题 。 内 存 中 以 4 KB 为 一 个 内 存 页 面 (32 位 ,其 实 64 位 
系统 中 大 多 也 是 以 4 KB 作为 内 存 页 面 默认 大 小 ) ,磁盘 中 则 往往 以 512 B( 一 个 届 区 ) 作 为 
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一 个 磁盘 页 面 。 因 此 在 磁盘 中 PE 文件 是 以 512 B 为 粒度 对 齐 的 。 可 以 想象 磁盘 中 的 PE 文 
件 的 结构 要 比 内 存 中 的 PE 文件 紧凑 不 少 。 不 过 随 着 磁盘 空间 的 扩展 ,磁盘 空间 不 再 稀缺 ， 
Windows 也 可 以 以 4 KB 为 一 个 磁盘 页 面 , 这 样 磁 盘 与 内 存 的 页 面 大 小 相等 了 ,两 着 的 空 险 
和 布局 也 都 会 一 样 ,许多 计算 卓然 也 就 方便 了 了。 磁盘 页 面 对 齐 的 粒度 由 PE 文件 头 的 
FileAligment 字段 定义 。 内 存 页面 与 磁盘 页 面 的 对 齐 粒 度 如 图 12 -5 所 示 。 与 磁盘 页 面 不 
同 ,资源 字 节 人 码 部 分 一 般 要 求 以 双 字 方式 对 齐 。 


图 12-5S 内 存 页 面 与 磁盘 页 面 的 对 齐 粒 度 


12.2.2 PE 文件 结构 


PE 文件 结构 按照 地 址 由 低 到 高 的 顺序 依次 包括 DOS 头 ` NT 头 区 段 头 和 区 段 4 部 分 ,后 
面 可 能 还 混杂 着重 分 配 信 息 .符号 表 信 息 . 行 号 信息 以 及 字 串 表 数 据 。PE 文件 结构 如 图 12 -6 
所 示 , 各 结构 之 间 的 关系 如 图 12 -7 所 示 。 


9 File: SIPGateModule.dll 
| Dos 头 部 


Pe 

- = STe a HH “I 肿 | 士 志 

国 区 段 数据 组 成 的 不 同 区 段 
.ata -更 


nx IMAGE_SECTION_HEADER 结 构 有 和 殉国 于 共生 相生 


= 
16x IMAGE, DATA_DIRECTORY 结 构 + 数据 目录 表 PE 文件 头 
IMAGE_OPTIONAL HEADER32 结 核 可 选 部 分 


IMAGE _ FILE HEADER 结 构 PE 文件 表 头 
PE 文件 头 标志 


DOs 块 
IMAGE_DOS_HEADER 结 构 DOS MZ 文件 头 文件 头 讲 


图 12-7 PE 文件 各 结构 之 间 的 关系 
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12.2.2.1 DOS 头 结 构 


PE 文件 是 由 一 个 MS-DOS 头 开 始 的 。DOS 头 是 为 了 “ 羔 容 "16 位 系统 DOS 环境 而 特 旭 
保留 的 头 结构 ,包括 了 头 结构 本 身 和 一 段 DOS 存根 程序 ,但 这 个 所 谓 “ 兼 容 ” 不 是 说 能 在 
DOS 下 运行 ,而 是 比较 友好 地 返回 提示 不 能 执行 的 消息 ,一 般 是 输出 “This program cannot be 
run in DOS mode. "这样 一 句 提 示 。DOS 头 结构 本 身 的 视图 如 图 12 -8 所 示 。 
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图 12-8 DOS 头 结构 视图 


我 们 分 别 来 解释 其 中 比较 重要 的 域 。 微 软 SDK 或 VC 编译 器 目录 中 均 含 有 WinNT. h 
文件 ,该 文件 中 定义 了 一 个 IMAGE_DOS_HEADER 结构 体 来 表示 DOS 头 , 我 们 就 以 这 个 结 
构 体 的 定义 来 列举 各 个 域 的 含义 。 下 列 结构 体 定义 中 标注 了 部 分 域 值 的 大 小 和 偏 移 : 


typedef struct IMAGE DOS HEADER { 
WORD ee magic; //magic number, DOS 头 签 名 ,固定 是 0x5RA4D 
WORD € cblp; 
WORD € cp; 
WORD € crlc; 
WORD €& cparhdr; 
WORD ee minalloc; 
WORD ee maxalloc; 
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WORD € ss; / /DOS 代码 的 初始 堆栈 ss 指针 
WORD € sp; //DOS 代码 的 初始 堆栈 SP 指针 
WORD 已 csum; 

WORD € ip; //DOS 代码 的 人 口 指 令 

WORD € cs; / /DOS 代码 堆栈 入 口 

WORD ee lfarlc; 

WORD € ovnos 

WORD € res[4]; 

WORD € oemid; 

WORD ee oeminfo; 

WORD ee res?2[10]; 

LONG ©€ lfanew; / /NT 头 在 PE 文件 中 的 偏 移 


} IMAGE DOS HEADER, * PIMAGE DOS HEADER; 


DOS 头 后 面 紧 跟 者 一 段 DOS 存根 程序 ,但 这 段 程序 是 由 链接 右 定 义 的 。 当 PE 文件 在 
DOS 下 执行 时 会 执行 这 有 段 程序 ,作用 是 在 DOS 视窗 中 显示 “This program cannot be run in 
DOS mode. ”这 和 句 提示 ,如 图 12 -9 所 示 ,然后 调用 int 0x21 指令 (DOS 的 系统 中 断 指令 ) 来 终 
止 程序 执行 。 


00000040 | OE 1F BA OE 00 B4 09 CD 21 BS8 0l1 4C CD 21 54 168 
00000050 | 69 73 20 70 7a 6F 67 ?2 61 6D 20 63 61 6E 6E 6F | is program canno 


U0000060 | ja 20 6c 65 <U ec /5 bE 20 69 6E 20 44 4F 53 20 | 七 be run in DOS 
UUU0U00070 | bp bE 64 bo ZE OD 0D 0a& 24 00 00 00 00 00 00 00 


图 12-9 DOS 存根 程序 引用 的 字符 串 


12.2.2.2 NT 头 结 构 

PE 文件 最 为 核心 的 部 分 就 是 PE 文件 头 了 ,而 核心 中 的 核心 就 是 PE 文件 头 最 后 一 个 数 
据 结 构 一 可 选 头 结构 IMAGE_OPTIONAL_ HEADER32(64 位 系统 下 为 IMAGE_OPTIONAL 
HEADER64 结构 ) ,因为 可 选 涉 定义 了 运行 基 址 、 入 口 地 址 等 重要 信息 以 及 紧 跟 其 后 的 目录 
表 , 没 有 可 选 头 就 无 法 找到 这 些 重要 信息 ,更 无 法 找到 导 人 表 、 导 出 表 等 这 些 运行 时 必需 
的 表 。 

1. 可 选 头 结构 

在 WinNT.h 中 定义 了 IMAGE_NT_HEADFR 结构 来 表示 可 选 头 ,可 选 头 也 被 称 为 NT 
头 ,32 位 Windows 定义 的 NT 头绪 构 如 下 所 示 : 


typedef struct IMAGE NT HEADERS { 

DWORD Signature; 

IMAGE FILE HEADER FileHeader; 

IMAGE OPTIONAL HEADER32 OptionalHeader; 
} IMAGE NT HEADERS32, * PIMAGE NT HEADERS32} 


Wt 前 | | RS oa i 
64 位 Windows 定义 的 NT 头 如 下 所 示 . 
typedef struct IMAGE NT HEADERS64 { 
DWORD Signature,; 
IMAGE FILE HEADER FileHeader; 


IMAGE OPTIONAL HEADERE64 OptionalHeader; 
} IMAGE NT HEADERS64, * PIMAGE NT HEADERS64: 


我 们 先 来 看 NT 头 中 前 两 个 数据 结构 。Signature 即 PE 文件 签名 , 其 值 固 定 为 
0x45500000 ,表示 “PE.. "这 几 个 ASCII 码 字 母 。 
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接 下 来 的 IMAGE_FILE_HEADER 结构 如 图 12 -10 所 示 。 
名 称 


DET 00000104 014C Intel 366 


NumberDftSsect1iorms 000001065 E D005 


TimeDateStamp 00000108 JBBL2160 2018-8-9 19:;11:28 


FointerToSymbolTable | O0000010C 00000000 
HumberDfSymbols 00000110 00000000 
SizeDfOptionalHeader | ONO000114 , DOEO 
Characteristics 00000116 2z10E 


12-10 IMAGE FILFE_HEADER 结构 视图 


我 们 在 WinNT. h 中 也 能 找到 其 定义 : 


typedef struct IMAGE FILE HEADER { 


WORD Machine; // 此 处 与 COFF 文件 的 FILEHEADER 中 的 Machine 取 值 一 致 , 表 
/7/ 示 X86 平台 

WORD NumberOfSections ; /7 区 段 数量 , 例如 .text、.data 等 区 段 的 数量 

DWORD TimeDateStamp; // 此 PE 文件 的 创建 时 间 

DWORD PointerToSymbolTable; // 指 向 COFF 符号 的 指针 ,这 是 程序 调试 信息 

DWORD NumberofSsymbols; / /符号 数 

WORD ”Size0ofOptionalHeader; // 可 选 头 长 度 , 即 IMAGE_OPTIONAL HEADER 的 长 度 

WORD Characteristics; / /表示 文件 属性 ,例如 IMAGE FILE DLL 属性 


} IMAGE FILE HEADER, * PIMAGE FILE HEADER; 


而 关于 Characteristics 的 取 值 ,WinNT. bh 中 也 有 定义 ,如 图 12 一 11 所 示 , 这 些 值 可 以 取 并 
集 。 


#define IMAGE FILE RELOCS SIRIPPED Ox0001 Relocation info stripped from file,. 

#define IMAGE FILE EXECUTIABLE IMAGE Ox0002 File is executable (i.e. no unresolved externel references). 
卓 司 导 王 斌 再 已 IMAGE FILE LINE NUMS STIRIPPED 人 于 D004 Line nunbers stripped from file. 

#deftine IMAGE FILE LOCAL SYMS SIRIPPED Ox0008 Local symbols stripped from file. 

#define IMAGE FILE AGGRESIVE WS TRIM Ox0010 // AMgressively trim working set 

#define TIMAGE FILE LARGE ADDRESS AWARE OxO0020 BPP can handle y2gb addresses 

#define IMAGE FILE BYTES REVERSED LO Ox0080 Bytes of machine Word are reversed. 

#define IMAGE FILE 32BIT MACHINE Ox0100 32 bit word machine, 

卉 efne IMAGE FILE DEBUG STRIPPED O0200 ' Debugging info stripped from file in .DBG file 

#define IMAGE FILE REMOVABLE RU FROM SWAP DXO#00 If Image is on removable media, copy and run from the swap file. 
#define IMAGE FILE NET RUN FROM SWAP Ox0800 A// If Image is on Met, copy and run freom the swap file. 

#define IMAGE FILE SYSTEM Dx1i000 System File. 

#define IMAGE FILE DLL 0X2000 Fileée is & DLL. 

#define IMAGE FILE UP SYSTEM ONLY Ox4000 File should only be run on a UP machine 

#define IMAGE FILE BYTES REVERSED HI Ox8000 // Bytes of machine Word are reversed. 


#define IMAGE FILE MACHINE UNENOWN 0 

define IMAGE FILE MACHINE I386€ Dx014c Intel 386€. 

#define IMAGE FILE MACHINE R3000 DRDOL1G2 MIFS little-endian, OxXl160 big-endian 
#define IMAGE FILE MACHINE R4000 Ox0166€ MIPS litrtle-endian 
#define IMAGE FILE MACHINME Ri0000 0x0168 MIPS little=endian 
#define IMAGE FILE MACHINE WCEMIPSV2 Ox0169 MIPS little-endian WCE vw2 
#define IMAGE FILE MACHINE ALPHA Ox0184 Alpha AXP 

#define IMAGE FILE MACHINE SH3 Dx0laz SH3 little—-endian 
#define IMAGE FILE MACHINME SH3DSP Ox01a3 

#define IMAGE FILE MACHINE SH3E Oxoiad4 // SH3E little-endian 
#define IMAGE FILE MACHINE SH4 Dx0lagt SH4 1ittle=endian 
#define IMAGE FILE MACHIME SHS Ox0ias SHS 

#define IMAGE FILE MACHINE ARM Ox01c0 APM Little-Endian 

#define IMAGE FILE MACHINE THUMB Ox01c2 

#define IMAGE FILE MACHINE AM33 Ox01d3 

#define IMAGE FILE MACHINE POWERPC OxD1iFO // IBM PowerPC Little-Endian 
#define IMAGE FILE MACHINE POWERPCFP Ox01f1 

#define IMAGE FILE MACHINME IAG64 Ox0200 "Intel 64 

#define IMAGE FILE MACHINME MIPS16€ OR0266 MIPS 

#define IMAGE FILE MACHINE ALPHAN64 二 D 之 和 @44 LLPHAG4 

#define IMAGE FILE MACHINE MIPSFEPU Ox0366 MIPS 

#define IMAGE FILE MACHINE MIPSFPU1€ Ox0466 MIPS 

#define IMAGE FILE MACHINE AXP64 IMAGE FILE MACHINE ALPHA64 

#define IMAGE FILE MACHINME TRICORE Ox0520 // Infineon 

#define IMAGE FILE MACHIME CEF ORO0CEF 

#define IMAGE FILE MACHINE EBC Ox0EBC // EFI Byte Code 

#define IMAGE FILE MACHINE AMD64 Ox8664 A/ AMD64 (ES8) 

#define IMAGE FILE MACHINE M32R Ox3041 // M32R lirtle-endian 
#define IMAGE FILE MACHINE CEE OxCOEE 
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我 们 重点 来 看 NT 可 选 头 结构 IMAGE_OPTIONAL_HEADFR32 , 其 结构 如 图 12 - 12 
所 示 。 


编号 名 称 坑 移 太 小 数据 备 汗 
1 Nagic ] 00000118 2 010B PE32 
2 NajorLinkerVersi on 
3 WinorLi TerVers] on | 00000118B | 1 D0 
时 SlireDftLode O000011C : 4 O02DFO000 
5 SizeD0fInitializedData | 00000120 | 4 001D4000 
6 size0fUninitializedDal| 00000124 | | 4 ‘00000000 | | 
了 Address0fEntryPoint | 00000128 4 O00294AF1 | File Offset:00294AF1 
8 Base0fCode 0000012C Bb 00001000 | 
9 |BaseOfData 00000130 |4 ‘oo02E0000 
10 lImagePase | 00000134 | 4 | 10000000 | 
11 Sectionhli enment 00000138 4 00001000 | 
l2 Filehl1 erment | 0000013C | 4 00001000 
13 HaiorOperatingSrstenVe 00000140 | 2 | 0004 
14 Mnor0Operatimegsystenyvt| O00000142 2 0000 
15 NajorlmageVer sl on | 00000144 | < 0000 | 
16 MWinorImaeeVersi on 00000146 | 2 0000 
7 | MajorSubsystenVersion (00000148 |2 | oo04 
18 NinorSubsystemVYersion O000014A 2 0000 
19 Win32VersionValue 0000014[ 4 | 00000000 | 
20 SireDfImage 00000150 4 004B4000 
| 21 SizeDfleaders | 00000154 4 | 00001000 | 
22 Checksum 00000158 | 4 | 00000000 ] 
23 Subsystem 0000015C | < 0002 Windows GI 
24 DllCharacteristics | 000001S5E | 2 | 0000 和 和 汪清 尖 革 和 革 革 革 革 革 车 著 
25 | 四 
26 SirzeDfStackC ommit | 00000164 4 : 00001000 
27 Size0fHeapReserwe Po a 4 | 00100000 
28 SizeDfHeapCommit 0000016C | 4 00001000 
29 LoaderF]l ags 00000170 | 4 | 00000000 
30 Number0OfRvahndsires 00000174 4 00000010 


图 12 -12 可 选 头 结构 视图 
在 WinNT. h 中 可 选 头 的 定义 和 解释 如 下 : 


typedef struct IMAGE OPTIONAL HEADER { 


WORD Magic; / /PE 文件 头 签名 ,固定 为 0x010B, 在 64 位 系统 下 为 
//0x020B 

BYTE MajorLinkerVersion; / /链接 该 PE 文件 的 链接 器 主 版 本 号 

BYTE MinorLinkerVersion; /1 链接 该 PE 文件 的 链接 器 子 版 本 号 

DWORD SizeOfCode; /7 所 有 代码 段 (IMAGE SCN CNT CODE 属性 ) 的 总 大 小 

DWORD SizeOfInitializedData; /1 所 有 已 初始 化 数据 段 的 总 大 小 

DWORD SizeOfUninitializedData; /7 所 有 未 初始 化 数据 段 的 总 大 小 ,但 链接 器 一 般 将 未 初 


/I ES 附加 到 常规 数据 段 的 末尾 ,因此 该 域 值 总 
/7 为 0 
DWORD AddressOfEntryPoint; / /PE 文件 人 口 相 对 地 址 ,但 该 域 一 般 指 向 运行 时 库 代码 
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DWORD BaseOfCode; / /代码 段 在 内 存 中 的 相对 地 址 
DWORD BaseOfData; / /数据 段 在 内 存 中 的 相对 地 址 
===========NT additional fields=========== 

DWORD ImageBase; / /PE 文件 在 内 存 中 的 首选 加 载 地 址 ,EXE 文件 为 
//0x00400000, DLL 文件 为 0x10000000 

DWORD SectionAlignment; / /PE 文件 加 载 到 内 存 后 的 对 齐 粒度 

DWORD FileAlignment; / /PE 文件 在 磁盘 中 的 对 齐 粒 度 

WORD MajorOperatingSystemVersion; // 操 作 系 统 的 主 版 本 号 

WORD MinorOperatingSystemVersion; // 操 作 系 统 的 子 版 本 号 

WORD MajorImageVersion; / /该 PE 文件 的 主 版 本 号 

WORD MinorImageVersion; /1 该 PE 文件 的 子 版 本 号 

WORD MajorSubsystemVersion; /1/ 已 废弃 

WORD MinorSubsystemVersion; /1 已 废弃 

DWORD Win32VersionValue; / /已 废弃 

DWORD SizeOfImage; /i 执 人 内 存 后 的 映像 大 小 ,是 内 存 对 齐 值 的 整 
/i 

DWNORD SizeOfHeaders; / /DOS 头 、NT 头 和 区 段 表 的 总 大 小 ,是 磁盘 文件 对 齐 值 
/7 的 整数 倍 

DWORD CheckSum; / /PE 映像 的 校 验 

WORD Subsystem; / /PE 文件 所 属 的 子 系统 ， 常用 的 有 如 下 几 种 : 
//IMAGE SUBSYSTEM NATIVE :不 需要 子 系统 
//IMAGE SUBSYSTEM WINDOWS GUI :使 用 GUI 了 于 系统 
//IMAGE SUBSYSTEM WINDOWS CUI :控制 台 程序 

WORD DllCharacteristics; / /DLL 特性 

DWORD SizeOfStackReserve; / /PE 文件 为 线程 保留 的 堆栈 大 小 ,默认 是 1 MB 

DWORD SizeOfSstackCommit; /1PE 文件 为 堆栈 初始 提交 的 内 存 大 小 ,默认 是 4KB 

DWORD SizeOfHeapReserve; /71PE 文件 为 进程 堆 保 留 的 内 存 大 小 ,默认 是 1LMB 

DWORD SizeOfHeapCommit; / /PE 文件 为 进程 堆 初始 提交 的 内 存 大 小 , 默认 是 4KB 

DWORD LoaderFlags; / /不 使 用 , 须 置 为 0 

DWORD NumberOfRvaAndSizes; // 和 包含 了 DataDirectory 数组 的 元 素 个 数 


// 数 据 目 录 表 


IMAGE DATA DIRECTIORY DataDi rectory[ IMAGE NUMBEROE DIRECTORY ENTRIES ] : 
} IMAGE OPTIONAL HEADER32, * PIMAGE OPTIONAL HEADER32; 


其 中 ,Subsystem 和 DllCharacteristics 的 域 值 如 图 12 -13 所 示 。 


/ Set Subsystem 


DllCcharacteristics 


Posix Console 

Native Win9dx Driver 

WimCE 

EFI Application | | Image understands isolation and doesn't want it 
EFI Boot Driver 站 pe does not Use SEH 

EFIRuntime Driver 门 | Do not bind this image 

EFI ROM Driver uses WDM model 

XBox Terminal Server Aware 

Windows Boot Application 


图 12-13 Subsystem 和 DIICharacteristics 的 域 值 


2. 数据 目录 表 

数据 目录 表 在 NT 可 选 头 结构 中 是 最 后 一 个 域 , 它 是 一 个 IMAGE_DATA_DIRECTORY 
数据 结构 的 数组 ,描述 了 PE 用 到 的 各 个 表 在 内 存 中 的 位 置 偏 移 和 大 小 。 在 32 位 系统 下 每 
个 IMAGE_DATA_DIRECTORY 包含 了 VirtualAddress 和 Size 这 两 个 双 字 大 小 域 值 共 8 个 字 
方 ,而 整个 数组 的 元 率 数 量 固定 为 16 ,其 元 双 包 括 导 出 表 目 录 、 守 人 表 、 守 和 人 地址 表 目 录 等 ， 
a 也 包括 了 一 个 8 字 市 零 值 的 终止 符 。 目 录 表 结构 如 图 12 - 14 所 示 , 它 是 将 IMAGE_ 
DATA_DIRECTORY 拆 分 成 RVA 和 Size 两 个 值 的 结构 表 。 
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从 图 12 -14 可 见 ,数据 目录 表 中 包含 了 以 下 数据 表 的 RVA 和 大 小 :导出 表 、 导 入 表 、 资 
源 表 、 异常 处 理 表 、WIN _ CERTIFICATE 结构 列表 、 重 定向 表 、 调 试 表 、IMAGE _ 
ARCHITECTURE_HEADER 结构 数组 .线程 本 地 存储 表 配置 表 、 绑 定 导 人 表 、 导 和 地址 表 、 
延迟 导入 表 和 一 个 .NET 信息 的 最 高 级 别 信 息 表 。 在 本 节 我 们 重点 讲述 导出 表 、 导 人 表 、 资 
源 表 、 重 定 癌 表 和 导入 地 址 表 , 这 也 是 我 们 在 加 载 和 运行 PE 模块 时 最 常用 到 的 。 


Member 

Export Directory RVA 
Export Directory Size 
Import Directory RVA 
Import Directory Size 
Resource Directory RVA 
Resource Directory Size 
Exception Directory RVA 
Exception Directory Size 
Security Directory RVA 
Security Directory Size 
Relocation Directory RVA 


Relocation Directory Size 


Debug Directory RVA 


Debug Directory Size 
Architecture Directory RVA 
Architecture Directory Size 
Reserved 

Reserved 


TLS Directory RVA |000001C0 |pDword |0000000(C 
TLS Directory Size 

Configuration Directory RVA 

Configuration Directory Size 

Bound Import Directory RVA 

Bound Import Directory Size 

Import Address Table Directory RVA NH 002E0000 
Import Address Table Directory Size 00000B30 
Delay Import Directory RVA | z 00000000 
Delay Import Directory Size | 

:NET MetaData Directory RVA 


:NET MetaData Directory Sizre O00001EC Cword 
图 12-14 数据 目录 表 结 构 视 图 
12.2.2.3 数据 目录 表 
1. 导出 表 
导出 表 是 数据 目录 表 中 第 一 个 出 现 的 表 , 其 RVA 是 0x0033B160 ,如果 加 上 PE 基 址 , 则 
在 不 考虑 重 定 回 的 情况 下 导出 表 位 于 虚拟 地 址 为 0x1033B160 的 位 置 ,如 图 12 一 15 所 示 。 
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| 


| 2018-8-9 19:11;28 


TimeDatest amp 


I 


Nai orVersi on 
MinorVersi on 
1 | 0 _ 
' SIPGatellodule. Ql 

| 


Wumber0fFuneti ons 
Humber0fHames 


| 
hddress0fFuncti ons Pile Dffset:0033B188 


hddressO0fHNaumes | Pile DEfset: D033B194 


， -+ + 十 本 
中 i i Ee a [| 
| 


1 十 
AddressDfNameDr dinals | File Offset:0033B1A0 


12-1s 导出 表 属 性 视图 


我 们 使 用 工具 查看 导出 表 , 其 位 于 磁盘 文件 (磁盘 文件 基 址 为 0) 上 偏 移 也 为 
0x0033B160 的 位 置 上 ,这 是 与 内 存 位 置 相 呼应 的 。 当 前 的 导出 表 一 共 导 出 了 3 个 函数 ,如 图 
12 一 16 所 示 。 


白 .四 Directorys 0033B130 | 16 01 47 65 74 46 75 6C 6C 50 61 74 68 4E 61 6D | , .GetFullPathHan 
由 -外 Export Directory || 0033B140 | 65 41 00 00 04 01 47 65 74 44 72 69 76 65 54 79 ... .GetDriveTy 
上 图 1-CoaaanicilL 0033B150 | 70 65 41 00 00 00 00 00 00 00 00 00 00 00 00 00 a 
| CR 2-mnit 0033B160 |ioo oo oo 00 60 21 6C 5B 00 00 00 00 A6 Bl 33 00 上 

| | 0033B170 | 01 00 00 00 03 00 00 00 03 00 00 00 989 B1 33 00 


二 -图 3-SIPGATE Module 


Inport Directory 0033B190 | 5E 27 21 00 B8 Bl 33 00 C4 B1 33 00 C9 Bl 33 00 | “'|.3.2.2. 

: -Tcrhodule. dl 0033Bla0 | 00 00 01 00 02 00 53 49 50 47 61 74 65 4D 6F 64 SIPGatelMod 
| 外 -SMCE_rnv. ll 0033B1B0 | 75 6C 65 2E 64 6C 6C 00 43 6F 6D 6D 61 6E 64 43 | ule.dll.CommandC 
| 由 -外 zes || 0033B1C0 | 41 4C 4C 00 49 6E 69 74 00 53 49 50 47 41 54 45 | ALII.Init .SIPGATE 


D0033B180 | 94 Bl 33 00 8&0 Bl1 33 00 8C 27 21 00 68 2 21 00 


图 12-16 导出 表 的 函数 导出 视图 


导出 表 的 结构 在 WinNT.h 中 也 有 定义 , 即 IMAGE_EXPORT_DIRECTORY 结构 体 ,其 域 

> Characteristics :未 用 到 ,一 般 为 0。 

> TimeDateStamp :链接 天 生成 导出 表 的 时 间 。 

> MajorVersion :未 用 到 ,一 般 为 0。 

> MinorVersion :未 用 到 ,一 般 为 0。 

> Name :模块 名 称 的 RVA , 指 问 例如 “SIPGateModule. dll” 这 样 的 字符 串 。 

> Base: 导 出 印 数 的 序号 以 该 值 为 基数 向 上 递增 ， 

> NumberOfFunections: 所 有 导出 男 数 的 数量 。 

> NumberOfNames: 按 困 数 名 导出 图 数 的 数量 。 

> AddressOfFunctions: 指 向 一 个 DWORD 数组 ,数组 中 的 每 一 项 都 是 一 个 导出 函数 的 
RVA ,顺序 与 导出 序号 (AddressOfNameOrdinals 数组 中 的 每 一 项 ) 匹配 ， 
AddressOfFunctions 本 号 是 一 个 RVA。 

> AddressOfNames: 指 向 一 个 DWORD 数组 ,数组 中 的 每 一 项 仍然 是 一 个 RVA , 指 问 也 
数 名 。AddressOfNames 本 号 是 一 个 RVA。 

> AddressOfNameOrdinals :指向 一 个 WORD 数组 ,数组 中 的 每 一 项 与 AddressOfNames 
中 的 每 一 项 对 应 , 表示 该 名 称 的 函数 在 AddressOfFunctions 中 的 序号 。 
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AddressOfNameOrdinals 本 二 是 一 个 RVA。 
这 几 个 域 从 的 关系 如 图 12 一 17 所 示 。 休 单 来 说 , AddressOfFunctions 指 问 叶 出 清 数 地 
址 ,AddressOfNameOrdinals 指 癌 导出 限 数 序号 (以 Base 为 起 始 值 ) ,AddressOfNames 指 回 导 
出 困 数 名 称 的 地 址 。 有 的 因数 只 导出 了 序号 和 地 址 而 没有 导出 名 称 , 因 此 AddressOfNames 
有 可 能 与 其 他 两 者 不 一 一 对 应 。 


FileNameg 


Ne 
NR | 
[aaww | 


| 国 数 入 口 RVA 


NumberOQfFunctions 


0212768 
D033B1A2 2 Do0l 3H:2 
0033B198 站 O33B1C4 File Dffset :O033B1Cd4 (Tnit) | 


File Offset:002l2T6e 


File Offset :O021275E 


| 0033B190 D021275E 
Min A 此 OO 村: 志 


| 0033819C 4 0033B1C9 File Offset: 0033B1C9 (SIPGATE Moe 


图 12- 18 ”导出 函数 地 址 名称. 序号 三 者 关系 示例 


| 


2， 导入 表 
导 人 表 具 有 两 层 含义 :该 PE 文件 引用 了 哪些 其 他 的 PE 文件 以 及 该 PE 文件 调用 了 这 
些 文件 的 哪些 接口 。 导 入 表 结 构 如 图 12 -19 所 示 。 


困 - Export Directory 
日 -项 Inport Direetory dr : ] Hex: B4 Dec: 180 in: i0110100 ECl1l: 1 
向- TCPodule ll | | | 
| 由- NCE_rnv. dl [00333BB0 
| 全 和 00333BC0 
i 1-9GetLeyslBCZxLegReSA9BHMLDG_LEYELR sbeebs 

00333BE0 
| | 00333BEF0 
由 四 rerktuetry 和 00333C10 
| 由, 区 NSFHodule, U1 he 
| 由 有 Conmonllodule, 1 US 
rtp. 00333C40 
， 鲜 - 包 0_SIFllodule. dll 00333C50 
由 Codechnalyre. 1 00333C60 
| 外" hesa， 1 00333C70 
| hs hnalvrefata | z 00333C80 

00333C90 
U0d33CAU 


File Offset:00334TB4 


TimeDatestamp 
ForwarderChain 
Hane oa |4 0o0s3Tg6E | File Offset:00337E6E 
FirstThunk | : | | | File Offset:002E0ATC 


图 12 -19 导入 表 结 构 视 图 
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导入 数据 保存 在 导入 表 中 ,针对 每 个 被 导 和 人 的 PE 文件 都 有 一 张 导入 表 , 这 些 导 入 表 按 
序 排列 在 一 起 。 以 图 12 - 19 为 例 , 我 们 要 导入 TCPModule. dl .ZxLog. dl 等 动态 链接 库 ,每 
个 库 对 应 一 张 如 入 表 ( 图 12 - 19 中 左下 方 ) 。 导 人 表 在 WinNT. h 中 也 有 定义 , 即 IMAGE_ 
IMPORT_DESCRIPTOR 结构 (如 图 12 - 20 所 示 ) ,其 具体 域 值 的 含义 如 下 : 


typedef struct IMAGE IMPORT DESCRIPTOR { 


union { 
DWORD Characteristics; YA 0 for terminating null import descriptor 
DWORD OriginalFirstTIhunk; /i RVA to original unbound IAT (PIMAGE THUNK DATA) 
}; 
DWHORD TimeDatestAamp:; fy DIE not pound, 
/i -1 if pound, and real date\time stamp 
i in IMAGE DIRECTORY ENIRY BOUND IMPORT (new BIND) 
/i OO.W. date/time stamp of DLL bound to (Qld BIND) 
DWORD ForwarderChain; /i =1 if ne forwarders 
DWORD Manme » 
DWORD FirstThunk:; /i RYVA to IAT (if bound this IAT has actual addresses) 


} IMAGE IMPORT DESCRIPIOR:; 
typedef IMAGE IMPORT DESCRIPTIOR UNALIGNED *#PIMAGE IMPORT DESCRIPTOR; 


12 一 20”IMAGE IMPORT DESCRIPTOR 在 WinNT.h 中 的 定义 


> Characteristics 和 OriginalFirstThunk : 一 个 联合 体 ,不 为 0 时 OriginalFirstThunk 保存 
一 个 RVA ,指向 IMAGE_THUNK_DATA 数组 ,这 个 数组 中 的 每 一 项 表示 一 个 导入 

> TimeDateStamp :映像 绑 定 前 该 值 为 0, 绑 定 后 为 导入 模块 的 时 间 戳 。 

> ForwarderChain :转发 链 , 右 没有 转发 需 , 这 个 值 是 -1。 

> Name: 被 导入 模块 名 称 的 RVA ,指向 例如 “TCPModule. dll” 这样 的 字符 串 ,所 以 一 个 
IMAGE _IMPORT_DESCRIPTOR 只 能 描述 一 个 导入 的 DLL。 

> FirstThunk: 指 向 一 个 IMAGE_THUNK_DATA 数组 ,后 文 将 详细 说 明 , FirstThunk 是 一 
个 RVA。 

OriginalFirstThunk 与 FirstThunk 都 指 回 IMAGE_THUNK_DATA 数组 ,那么 两 者 有 什么 

别 呢 ? IMAGE_THUNK_DATA 结构 如 下 所 示 : 


typedef struct IMAGE THUNK DATA32 { 


union { 

DWORD ForwarderSstring; /PBYTE 

DWORD Function; / /PDWORD，, 图 数 地 址 

DWORD Ordinal; // 按 序号 导 人 时 使 用 

DWORD AddressOfData; / /PIMAGE IMPORT BY NAME, 若 按 函数 名 导入 则 指向 函数 名 
} uls 


} IMAGE THUNK DATA32}; 
typedef IMAGE THUNK DATA32 * PIMAGE THUNK DATA32; 


其 中 ,Ordinal 与 AddressOfData 指 回 同一 内 存 空间 ,这 个 空间 大 小 都 是 4 字 节 32 位 的 ， 
因此 以 最 高 位 是 否 为 0 来 区 别 到 底 是 使 用 Ordinal 还 是 AddressOfData ,为 1 就 表示 按 序号 导 
入 ,使 用 Ordinal ; 为 0 就 表示 按 限 数 名 导入 ,使 用 AddressOfData。 虽 然 AddressOfData 和 
Ordinal 可 用 的 位 数 只 有 31 位 ,但 是 在 一 个 PE 文件 中 内 存 空间 的 搜索 范围 既 不 会 超过 2GB 
导出 的 序号 也 不 会 超过 2” ,因此 31 位 已 经 足够 用 了 。 

我 们 来 看 OriginalFirstThunk 与 FirstThunk 之 间 的 协作 关系 。 在 加 载 之 前 ,两 者 分 别 指 回 两 
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个 IMAGE_THUNK_DATA 数组 ,但 这 个 数组 的 Ordinal 或 AddressOfData 却 分 别 指 癌 同一 份 内 
容 , 即 编号 和 上 胃 数 名 信息 ,这 些 信息 称 为 INT(Import Name Table, 导 入 名称 表 ) ,如 图 12 -21 
所 示 。 


链接 库 1 链接 库 1 的 引入 函数 


图 数 纺 写 2- 图 数 名 2 


导入 持 述 符 


First Thunk 


12-21 加 载 DLL 之 前 IMAGE_THUNK_DATA 数组 的 指向 
加 载 之 后 ,FirstThunk 指向 的 IMAGE_THUNK_DATA 数组 的 Function 域 值 生效 ,被 蔡 换 
成 寻 人 图 数 在 内 存 中 的 真实 地 址 ,也 是 相对 地 址 ,我 们 将 这 些 地 址 信息 称 为 IAT ( Import 
Address Table ,导入 地 址 表 ) ,而 OriginalFirstThunk 仍然 指向 原来 的 IMAGE_THUNK_DATA 
数组 ,数组 的 内 容 也 没 变 化 ,如 图 12 -22 所 示 。 
链接 库 1 链接 库 1 的 引入 函数 


桥 1 
OriginalFirstThunk 国 数 编号 1- 国 数 名 1] 


函数 编号 2- 函 数 名 2 


导入 拍 述 符 


FirstThunk 


12 一 22” ”加载 DLL 之 后 IMAGE THUNK DATA 数组 的 指向 


3. 导入 地 址 表 

导 和 人 地 址 表 (IAT) 是 一 个 内 存 中 而 非 磁 盘 文 件 中 的 概念 ,也 就 是 说 ,只 有 PE 文件 加 载 
到 内 存 中 时 , 导 人 人 地址 表 才 会 生成 。 图 12 -23 是 采用 0D 加 载 了 一 个 GUI 的 EXE 文件 后 的 
结果 ,这 实质 上 就 是 导入 地 址 表 。 从 图 中 可 以 看 出 ,我 们 调用 的 是 微软 的 运行 时 库 msvert. 
dll, 一 共 调 用 了 6 个 也 数 ,这 些 函 数 的 地 址 存放 在 一 片 起 妈 地 址 为 0x00416520 ,结束 地 址 为 
0x00416538(0x00416534 +4) 的 内 存 区 域 中 ,每 4 字 市 的 空间 保存 了 一 个 被 调 疯 数 的 入 口 
基 址 。 

导入 地 址 表 (IAT) 也 是 挂钩 技术 的 重要 实施 对 象 ,这 是 因为 IAT 中 存放 了 导入 函数 的 真 
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实地 址 ,在 这 里 进行 拦截 是 一 个 非 第 好 的 选择 ,后 续 革 方 中 会 对 这 种 技术 进行 搬 述 。 


寻 加 于 了 旺旺 本 | 全 Fecn 


OO414445 CL>,. SE9 C60108000 jmp <ijmp.&HMSUCRT .terminate> Jump to msucrt -terminal 
B641444A | $- FF25 34654188 jmp dword ptr [<&MSUCRT.memset>] 

884144506| .- FF25 386654168 jmp dword ptr [<&MSUCRT.strncmp>] 

6414456) 4- FF25 2C654108 jmp dword ptr [<&MSUCRT .memcpy>] 

B841445C $- FF25 286541088 mp dword ptr [<&MSUCRT.strlen>] 

686414462| .- FF25 24654108 jmp dword ptr [<&MSUCRT. ismbcdigit>] 

O414468| .- FF25 286541068 jmp dword ptr [<B&MSUCRT -freey] 

[oT WT N44 GhFAhANMM EE ~"mm deoned ntre ThAFMGhT1 -1 


图 12-23 导入 地 址 表 在 内 存 中 的 形态 

4. 重 定向 表 

重 定向 表 是 为 了 解决 动态 加 载 地 址 的 修正 问题 而 引入 的 表 。 我 们 在 前 文 说 过 ,一 般 
DLL 的 默认 基 址 是 0x10000000 ,EXE 文件 的 默认 基 址 是 0x00400000。EXE 文件 一 般 不 存在 
地 址 重 定 问 的 问题 ,因为 一 个 进程 中 只 有 一 个 EXE 文件 存在 , 且 是 最 先 加 载运 行 的 那个 , 没 
人 跟 它 抢 基 址 。 但 是 DLL 就 不 一 样 了 ,一 个 进程 可 能 会 用 到 多 个 DLL 模块 ,每 个 模块 的 默 
认 基 址 都 是 0x10000000 ,这 样 就 会 产生 基 址 和 争 用 的 问题 , 先 加 载 者 得 默认 基 址 ,后 面 的 只 能 
男 选 他 处 了 。 为 了 帮助 不 能 在 默认 其 址 加 载 的 PE 模块 在 新 的 地 址 上 正确 修正 变量 地 址 , 重 
定 癌 表 就 被 引入 了。 

重 定 回 表 的 基本 思想 是 :将 PE 文件 中 需要 “ 写 死 ”的 变量 地 址 识别 出 来 ,以 RVA( 相对 
虚拟 地 址 ) 来 符 代 它们 ,之 所 以 采用 RVA, 是 因为 相对 地 址 是 个 差 值 ,是 不 以 基 址 的 变化 而 
变化 的 偏 移 值 ,这 就 很 好 地 迎合 了 默认 基 址 多 变 的 情况 。 当 PE 模块 被 加 载 到 内 存 的 时 候 ， 
真实 的 加 载 基 址 耳 接 加 上 事先 记录 的 这 个 仿 移 值 就 可 以 了 。 


RS 


1 Virtualhddress 4 00002000 

2 S1zeDfBlock 4 0000001C 

3 Relocat1 on 2 HiehLow:00002054 
4 Relocati on 2 | Hi ghLow:00002083 
5 Relocatl on 2 Hi ehLow:000020D6 
6 Relocat1 on | | 之 | Hi ehLow:00002103 
了 Relocati on 2 HiehLow:00002140 
8 Relocat1 on | 2 HiehLow:0000226C 
外 Relocatl on 2 ] HiehLow:00002B15 
10 Relocati on 2 | Hi ghLow:00002B1E 
11 2 Hi ehLow:00002B31 
12 Relocati on | 2 Absolute:00002000 


图 12 -24” 重 定向 表 结构 视图 


重 定 问 表 由 一 个 虚拟 地 址 ( VirtualAddress ) 一 个 块 大 小 (SizeOfBlock ) 和 一 堆 Block 组 成 ， 
如 图 12 -24 所 示 。 一 个 重 定 回 表 涵盖 了 一 个 内 存 页 面 (4 KB 大 小 ) 中 需要 重 定 癌 的 变量 的 地 
址 的 偏 移 ( Offset)。 例 如 PE 文件 的 . text 区 段 占 用 了 2 个 内 存 页 面 ,第 一 个 内 存 页 面 含有 10 个 
需要 重 定向 的 变量 ,第 二 个 内 存 页 面 含有 5 个 需要 重 定向 的 变量 ,基于 此 ,第 一 个 重 定向 表 信 
有 10 个 Block ,第 一 个 内 存 页 面 的 VirtualAddress 为 0x10001000; 第 二 个 重 定 问 表 含有 5 个 
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Block ,第 二 个 内 存 页面 的 VirtualAddress 为 0x10002000 。 
> VirtualAddress :占用 4 字 ,表示 该 重 定 回 表 要 表示 的 内 存 页 面 的 基 址 。 
> SizeOfBlock :占用 4 字 节 ,表示 有效 的 Block 占用 的 字 节 数 加 上 VirtualAddress 和 
SizeOfBlock 的 大 小 。 使 用 SizeOfBlock 可 以 计算 出 它 之 后 携 币 多少 Block 。 
> Block: 占 用 2 字 节 , 低 12 位 表示 需要 修正 的 变量 在 该 页 面 中 的 位 移 ,高 4 位 表示 该 
Block 是 否 是 个 有 效 块 。 
我 们 用 一 个 图 来 形象 地 表示 重 定向 表 , 如 图 12 -25 所 示 。 


该 页 基 址 : Virtual Address 
4 字 玉 


Virtual Address 
Size0fBlock 一 
SI1ZE0fBlock 00110000 01011111 了 |] 守 闪 六 农 。 素 玉 来 来 素 闪 六 玉 
侦 移 地 址 记录 


站 个 ] ] 闪闪 六 六 六 来 认 六 六 六 闪 半 站 中]] 玉 六 宁 下 闪 玉 补 六 六 六 闪 半 


ee 


DO] ] 衬 寥 衬 衬 宗 宁 襟 守 素来 这 宗 
Virtual Address 
Size0fBlock 


从] ] 闵 床 束 素 来 束 素 束 束 束 素 束 局 曲 ] ] 素来 素来。 束 束 来 素 束 来 率 束 


从] ] 党 识 束 洲 率 求 水 六 素 来 汪 率 局 个 ] ] 开 来 兴 玉 闲 来 来 染 率 六 党 术 


0000000 00000000 O00000000 00000000 
UUUUUUUU 00000000 O0000000 00000000 


图 12 一 25 一 个 重 定向 表 的 实例 

从 图 中 可 见 , 有 3 个 内 存 页 面 需要 重 定 回 ,各 个 重 定 回 表 都 是 紧 挨 看 的 ,最 后 有 一 个 全 
为 0 的 8 了 字 市 区 域 ,表示 重 定 问 表 的 结束 。 

5. 延迟 导入 表 

延迟 导入 表 是 用 来 摘 述 动态 链接 库 延 开 加 载 信息 的 专用 表 。 在 加 载 和 运行 时 ,有 些 郴 
数 可 以 等 到 实际 使 用 的 时 候 再 去 加 载 对 应 的 DLL , 没 必要 在 程序 一 开始 加 载 的 时 候 就 全 部 
初始 化 好 ,采用 延迟 导 和 可 以 使 初始 的 加 载 司 动 速度 更 快 .使 用 的 内 存 更 少 。 延 开导 人 表 的 
本 质 就 是 在 IAT 中 放 入 固定 的 跳 转 代码 ,而 不 是 加 载 时 使 用 被 调 入 函数 的 破 实 地 址 填充 , 竺 
到 真正 调用 的 时 候 才 重 写 IAT 为 真实 的 函数 人 人口 地 址 。 

一 般 在 编译 器 中 ,针对 延迟 导入 会 有 相应 的 配置 选项 ,例如 Visual C++ 6.0(VC 6) 中 的 
Delay Loaded Dlls 选项 中 可 以 配置 需要 延 玉 导 人 的 DLL, 其 中 每 一 个 要 延 到 加 载 的 DLL 都 对 
应 一 个 延迟 导入 表 。 延 人 运 导 人 表 的 数据 结构 为 ImgDelayDescr, 如 下 所 示 : 


typedef struct ImgDelayDescr I 


| 


| 


DWORD grAttrs; / /1 表示 后 面 的 地 址 都 是 RVA,0 表示 后 面 的 地 址 都 是 指针 

RVA rvaDLLName; / /要 导 人 DLL 的 名 称 的 RVA 

RVA rvaHmod; / /要 导 人 人 DLL 的 基 址 , 导 人 前 为 空 

RVA rvalAT; //IAT 的 RVA, 导 人 前 IAT 中 存放 跳 转 代码 , 导 人 后 为 导 人 郴 数 地 址 
RVA rvalINT; //INT 的 RVA 
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RVA rvaBoundIAT; // 绑 定 导 人 表 的 RVA 
RVA rvaUnloadIAT; // 延 迟 导 人 和 钊 载 
DWORD dwTimestamp; / /延迟 导 人 DLL 的 时 间 戳 


} ImgDelayDescr, * PlmgDelayDescr; 


前 面 说 过 延迟 导 人 表 的 本 质 就 是 在 IAT 中 放 入 了 跳 转 代码 ,从 而 更 改 原先 的 加 载 流 程 ， 
这 个 跳 转 代码 如 下 所 示 


text: /oCIA363 imp load IntenetConnectAQ 32: ;: InternetConnectA (x, x, XxX, XX, XxX,X, XxX, XxX) 
text: /oCIA3063 mov eax,offset imp InternetConnectA@ 32 
-text: /SCIA363 .Jmp tailMerge WININET 


跳 转 代码 将 要 跳 转 的 函数 的 地 址 放 入 EAX 寄存 器 中 ,之 后 跳 转 到 _tailMerge_WININET。 
我 们 能 够 猜测 到 ,EAX 寄存 带 的 值 是 作为 _tailMerge_WININET 的 参数 的 。 当 第 一 次 调用 
DLL 的 某 图 数 时 ,会 首先 跳 转 到 上 述 地 址 执行 EAX 寄存 带 赋 值 ,然后 再 跳 转 到 _tailMerge_ 
WININET。 

_tailMerge_WININET 的 代码 如 图 12 - 26 所 示 , 首 先 保存 大 干 寄存 占 的 值 和 延迟 导入 
表 ,再 调用 _delayLoadHelper ,最 后 跳 转 到 EAX 寄存 需 存 放 的 地 址 处 ( _delayLoadHelper 会 对 
EAX 寄存 器 赋 新 值 )。_delayLoadHelper 负责 加 载 DLL ,查找 导出 图 数 并 填充 至 IAT 中 ,执行 
完成 后 IAT 中 已 存在 了 函数 地 址 ,并 将 该 地 址 赋值 给 EAX 寄存 器 。 当 跳 转 到 EAX 也 就 相 
当 于 跳 转 到 真实 图 数 地 址 了 。 如 此 便 完 成 了 延 氏 导 人 表 的 初始 化 和 使 用 ,后 面 如 果 再 调用 
相同 浮 数 的 话 就 跟 访 问 IAT 一 样 ,不 会 再 走 _delayLoadHelper 了 了。 延迟 导 人 表 的 执行 流程 如 
图 12 -27 所 示 。 


其 中 ，_DELAY_ IMPORT_DESCRIPTOR_WININET 就 是 ImgDealyDescr 


_ tailMerge WININET proc near 


.text:75C6BEFO push eCX 

text:75C6BEFL1 push edx 

text:75C6BEF2 push eax 

text :75C6BEF3 push offset DELAY IMPORT DESCRIPTOR WININET 
text:75C6BEFS call _delayLoadHelper 

text:75C6BEFD pop edx 

text :75C6BEFE pop eCX 

text:75C6BEFF jmp eax 


text:75C6BEFF tailMerge WININET endp 
12 一 26 ”_tailMerge_WININET 的 代码 


6. 资源 表 

资源 表 在 GUI 进程 的 EXE 文件 中 非常 常见 。 本 节 我 们 以 一 个 GUI 进程 的 EXE 文件 为 
例 来 讲解 资源 表 。 

从 图 12 -28 中 我 们 可 以 看 出 ,该 EXE 文件 包含 了 Icons .Dialoss Icon Groups 和 Version 
Info 四 部 分 资源 。 资 源 表 结构 体 有 很 多 种 ,包括 根 上 日 录 类 型 ( Resource Directory ,资源 目录 
头 ) 、 了 于 目录 类 型 ( Resource Directory Entry ,资源 目录 项 ) 文件 类 型 (Resource Data Entry, 资 
源 数据 ) 等 ,常用 的 也 是 这 三 种 。 图 12 -28 展示 了 这 三 种 类 型 之 间 的 关系 ,图 12 -29 则 展 
示 了 从 帝 源 目录 头 找 到 资源 数据 的 过 程 。 
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网 丘 上 月 录 
0U1 EAPORY 
02 IMPORT 
03 RESOQOURCE 
Ud4 EXCEPTION 
05 CERTIFICATE 
06 BASERELOC 
07 DEBUG 
08 ARCHITECTURE 
09 GLOBALPTR 
10 TLsS 
ll LOAD CONFIG 
12 BOUND IMPORT 


131AT 
14DELAY_IMPO 


EE 
C 
攻 
二 
全 
2 
所 


I6ENTRY 
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hModule 


gdi32.dll 
ImgDelayDescr 


pBoumdlAT 
pUnloadlAT 


dwTimestamp 


延迟 导入 名 称 表 
OffsetByName 


_Imp_load xxxx_ 


延迟 导入 地 址 表 


grAttrs 


| 二 
H 


_imp_load_xx addr _imp_load XXXX 


szName 

phmod 
PIAT 
PINT 


IMAGE_IMPORT_BY_NA 
ME 


() 
CreateCompatibleDC 


季 载 IAT 才 


OifsetByName — 

OF 和 指 回 _imp_load_xxxx 的 指针 
setByName = 

- 0 指 问 _imp_load_xxxx 的 指针 


OffsetByName 
DifsetByName 
OffsetByName 


旦 加 hile: AnalyzeData exe 
国 Dos 头 部 
天 Mt 尖 部 
加 文件 头 部 
器 国 可 选 头 部 
梧 数据 目录 四 
司 段 头 部 四 
- 器 导 入 目录 
回 ) 资源 目录 
上 Di 调式 目录 
江 , Address Converter 
党, Dependency Walker 
沪 , 十 六 进 制 编辑 
,ldentifier 
泊 , Quick Disassembler 
起, Rebuilder 
和 a, Resource Editor 
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CreateSolidBrush 


a 
~ DeleteDC 
0 
DeleteUblect 


12-27 延迟 导入 表 的 执行 流程 


指 问 _imp_load_xxxx 的 指针 
指 回 _imp_load_xxxx 的 指针 


指 问 _imp_load_xxxx 的 指针 


指 问 _imp_load_xxxx 的 指针 


口 .ReSsource Directory 
昌 : Resource Directory Entry 1, ID: 3, AKA: Icons 
: 日-Resource Directory 
日 - Resource Directory Entry 1, ID: 1 
: 日 -Resource Directory 
日. Resource Directory Entry 1, ID: 2052 
.Resource Data Entry 
-Resource Directory Entry 2, ID: 2 
; 由 -Resource Directory 
日 Resource Directory Entry 2, ID: 5, AKA: Dialogs 
由 -Resource Directory 
日 . Resource Directory Entry 3, ID: 14, AKA: Icon Groups 
由 -Resource Directory 
EE- Resource Directory Entry 4, ID: 16, AKA: Version Info 
由 -Resource Directory 


Member 
Er 
TimeDateStamp 
MajorVersion 


MinorVersion 


NumberOfNamedEn,... | 000 


NumberOfldEntries 


图 12 -28 资源 表 结 构 视图 


IadI3HpeoTABPTap 
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IMAGE_RESOURCE_DATA_ENTRY 


资源 数据 RVA 
习 山 


Reserved 


名 字 字 符 串 指针 /ID 


指向 资源 数据 项 


图 12 -29 从 资源 目录 头 找 到 资源 数据 
(1) 资源 目录 头 表 的 定义 如 下 : 


typedef struct IMAGE RESOURCE DIRECTIORY I 


DWORD Characteristics; / /资源 属性 , 总 为 0 

DWORD TimeDateStamp; / /时 间 截 

WORD MajorVersion; / /资源 大 版 本 号 ,总 为 0 

WORD MinorVersion; / /资源 小 版 本 号 ,总 为 0 

WORD NumberOfNamedFEntries; / /按照 名 称 命名 的 数量 , 即 按照 字符 串 加 载 的 资源 数量 
WORD NumberOfIdEntries; / /按照 ID 命名 的 数量 , 即 按照 ID 加 载 的 资源 数量 , 最 常用 


// IMAGE RESOURCE DIRECTORY ENTRY DirectoryEntries[ ]; 
} IMAGE RESOURCE DIRECTORY, * PIMAGE RESOURCE DIRECTORY; 


(2) 资源 目录 项 表 的 定义 如 下 : 


typedef st ruct IMAGE RESOURCE DIRECTORY ENTRY I 
union { 
struct 1 
DWORD NameOffset:31; // 低 31 位 为 偏 移 ,定义 了 目录 项 的 名 称 或 者 ID 
DWORD NameIsString:1;} // 若 为 1, 则 低 31 位 的 偏 移 指 向 Unicode 字符 串 的 指针 
上 
DWORD Namer 
WORD TId; 
}? 
union { 
DWORD OIffsetToDatas; 
struct 1 
DWORD OffsetToDirectory:31; // 若 高 位 为 1 , 则 RVA 偏 移 指向 的 是 新 的 ( 根 目 录 ) 
DWORD DatalsDirectory:l1; 
上 
}? 
} IMAGE RESOURCE DIRECTORY ENTRY, * PIMAGE RESOQURCE DIRECTORY ENTRY; 


(3) 资源 数据 项 表 的 定义 如 下 : 


typedef struct IMAGE RESOURCE DATA ENTRY { 


DWORD OffsetToData; / /资源 数据 的 偏 移 RVA 
DWORD Size; /7 大 小 

DWORD CodePage; / /代码 页 缓冲 ,未 使 用 
DWORD Reserved; / /未 使 用 


} IMAGE RESOURCE DATA ENTRY, * PIMAGE RESOURCE DATA ENTRY; 
因为 资源 是 有 父子 关系 的 ,所 以 Windows PE 文件 按照 资源 树 的 方式 组 织 各 种 资源 ,而 
资源 表 可 以 将 资源 的 属性 名称、 父子 关系 等 信息 串联 起 来 ,构筑 资源 视图 ,如 图 12 -30 所 
示 。 我 们 使 用 PE 工具 分 析 上 述 EXE 文件 ,将 每 种 资源 的 详细 信息 一 目 了 然 地 展示 了 出 来 。 
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日 - 头 部 
.~ Exe 头 部 
-Loff 头 部 
一 加 选 头 部 

由 - 区 段 头 部 

日 - 写 
-StreamlnfoLib Ad. dl 

-MEFC42. DLL 

:= MSVCRT. 1 

.~ EERNEL32. 由 1 

-VSER32. dl 

-3S}ELL32. Ql 


日. 


ua 应 用 软件 开发 协议 栈 


Y 0 窗 度 442 
8000 视 频 文件 分 析 工 具 
末 体 太 小 


aloeg: lO02 

i DefPushButton: 关闭 
:Fushhutton: ... 

i Te 二 ushButton: 开始 

:= Edit 

Static 立 件 路 径 : 

-ComboBox 

:Statie: 从 析 j 寸 程 : 

. “ListBox 

-Static: 分 析 关 果 坟 :详细 分 析 早 果 同 时 保存 到 . 1ogx 件 中 ) 
toCheckBox， 保存 视频 流 

t -utoCheekBox.: 悍 存 音频 泛 
GroupBos: 悍 存 配置 

一 ntoCheckBox， 指定 帧 数 范围 

i Edit 

:= Edit 

i + 

~ AutoCheckBox: 带 6000 利 有 头 

一 AatorheckBox: 1og 交 人 件 不 含 音 频 信 息 
Auatochackpox， Il 由 开始 悍 存 

i GroupBox: 转 挤 设置 

一 GroupBox: 时 间 抑 修正 ( 品 对 视频 ) 
一 AutoCheckBox: 时 间 识 间 也 设置 

:= Edit 

i .hat ohadi oBatt orn. 

i hutohadioButton.: 

— MutoRhadioButton. 

1 AuatorheckEox， 转 ps 过 


12-30 GUIEXE 模块 的 资源 视图 


村 
| 全 


12.2.2.4 区 段 表 与 区 段 


区 段 表 在 PE 文件 中 的 作用 也 很 重要 , 它 表 明了 代码 段 .数据 段 .资源 段 等 区 段 的 位 置 、 
大 小 、 属 性 等 重要 信息 。 每 个 区 段 都 是 内 存 页 面 (4KB ) 对 齐 的 ,PE 加 载 器 使 用 区 段 表 将 区 
段 对 齐 并 映射 到 内 存 页面 中 。 我 们 先 来 看 区 段 表 的 结构 ,如 图 12 -31 所 示 。 


"| 各 | SIPGatedodale. Ql 
一 国 IMAGE_D0S_HEADER 
由 -项 IIAGE_I_HEADEMS 
日 -从 INAGE_SEBCTION_HEADEHS 
| 工本 


由 -和 站) Saetions 

号 -让 Directorys 
-ED Fxport Directory 
由 - 闹 Tmport Directory 
由 同 Resmuree Directory 
-CD Base Relocation Table 
| Debae Directory 


VirtualSire 
Virtualhddress 
SizeDfRawhata 
PointerToRhawhata 


PointerToRelocations 
PointerToLinemmbers 
Humber0fRelocati ons 
Humber0fLinemmbers 


Characteristies 


Addr: 00000225 Hex: bl Dec: 97 Bin: Dii00001i Mscii: 


00000120 
00000130 
00000140 
00000150 
00000160 
00000170 
00000180 
00000190 
000001A0 
000001B0 
000001C0 
000001D0 
000001E0 
000001F0 
00000200 
00000210 


二 po po 让 4 和 


12-31 区 段 表 结构 视图 


样式 总 ) 
初始 忆 ) 
图 | 边界 各) 


加 加 厚 框 加 ) 

辟 | 对 话 框 架 名 ) 
| 系统 菜单 u) 
由 最 小 化 按钮 加 ) 
由 最 大 化 按钮 0) 


国 可 见 ) 
回 禁 用 O) 


辐 | 标题 栏 IT) 

加 |] 水 平 滚动 它 ) 
中 一 直 注 动心 ) 
门 | 修剪 同 组 名 ) 
回 修 前 下 级 人) 
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区 段 表 在 WinNT. h 中 也 有 定义 , 即 IMAGE_SECTION_HEADER 结构 。 每 个 区 有 段 都 对 应 
一 个 区 段 表 ,图 12 -31 表明 一 共有 5 个 区 段 ,因此 也 就 对 应 了 5 个 区 段 表 。 每 个 区 段 表 的 有 具 
体 域 值 含义 如 下 所 示 : 


typedef struct IMAGE SECTION HEADER { 


BYTE ”Name[ IMAGE SIZEOF SHORT NAME ]; // 该 区 段 的 名 字 , 例 如 .text 
union { 


DWORD PhysicalAddress; 
DWORD Virtualsize; / /该 区 段 在 内 存 中 的 大 小 
} Misc; 
DWORD VirtualAddress; / /该 区 段 在 内 存 中 的 相对 虚拟 地 址 
DWORD SizeOfRawData; / /该 区 段 在 磁盘 文件 中 的 大 小 ,磁盘 页 面 对 齐 
DWORD PointerToRawData; / /该 区 段 在 磁盘 文件 中 的 位 置 
DWNORD PointerToRelocations; / /COFEF 文件 中 使 用 ,一 般 为 0 
DWHORD PointerToLinenumbers; / /COFE 文件 中 使 用 ,一 般 为 0 
WORD NumberOfRelocations; / /COFEF 文件 中 使 用 ,一 般 为 0 
WORD NumberOfLinenumbers; / /COFEF 文件 中 使 用 ,一 般 为 0 
DWORD Characteristics; / /区 段 属性 ,与 COFE 文件 区 段 属性 的 取 值 范围 相同 


} IMAGE SECTION HEADER, * PIMAGE SECTION HEADER; 
PE 文件 在 内 存 中 与 在 磁盘 中 的 布局 是 不 一 样 的 。 每 个 区 段 要 占用 完整 的 页 面 (包括 内 
存 页 面 和 磁盘 页 面 ) ,因此 看 上 去 会 有 缝 际 (用 0 填充 ) ,这 主要 是 因为 内 存 和 磁盘 页 面 对 章 
的 粒度 不 一 样 , 即 SectionAligment 与 FileAligment 不 相等 ,代码 或 数据 也 不 可 能 正好 占据 一 
整个 页 面 , 而 且 内 存 页 面 的 条 粒度 大 于 磁盘 页 面 , 这 就 造成 了 如 图 12 -32 所 示 的 效果 。 
PE 位 盘 文 件 与 内 存 映 像 结构 图 


用 0 填充 
.data 块 


用 0 填充 


200h | 


用 0 填充 


.text 块 


PE 文件 头 _ PE 文件 天 


12 一 32 PE 文件 在 内 存 中 与 磁盘 中 的 布局 视图 


不 过 现在 对 齐 粒 度 逐 渐 趋 于 统一 ,对 某 些 系统 来 说 ,SectionAligment 与 FileAligment 都 是 
0x1000 , 即 4KB ,这 样 PE 文件 在 内 存 与 磁盘 中 的 布局 就 统一 起 来 了 。 一 般 来 说 ,DOS 头 、 
DOS 存根 程序 NT 头 以 及 区 段 表 等 措 述 性 数据 结构 在 内 存 中 占据 一 个 页 面 , 各 区 段 分 别 占 
用 整数 倍 的 页 面 。 

PE 文件 将 数据 表 作 为 非 描述 性 内 容 存 放 在 各 区 段 中 。 例 如 在 图 12 -33 中 ,. rdata 区 段 
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应 用 软件 开发 协议 栈 AAA 
中 就 包含 了 导出 表 导入 表 .调试 表 .导入 地 址 表 ,资源 表 在 . rsre 区 段 (资源 段 ) 中 , 重 定向 表 
在 . reloc 区 段 ( 重 定 癌 段 ) 中 ,而 代码 的 入 口 当 然 要 在 .text 区 段 ( 代 码 段 ) 中 了 。 


编号 仿 欧 | 大 小 | 孝 信 备注 


1 .text 00001000 1 00001000 Ox1000 to Ox2DFEF2 


2 Code Entry Point 00000128 4 O0294AF1 


| ”名 和 | 名 大 小 孝 信 备注 


1 .rdata 002E0000 1 002E0000 Ox2E0000 to Ox33B1D8 

之 Export Directory 0033B160 4 0033B160 | 

3 Import Directory 00333BF8 4 | 00333BF8 四 
全 Debug Directory O002E0B30 4 | 002E0B30 

3 4 


Import Address Table | O02E0000 D02E0000 


0033C000 


图 12-33 各 区 段 中 包含 的 重要 信息 表 
表 12-3 PE 文件 中 的 区 段 


窜 是 指令 代 本 ,链接 器 会 把 . obj 文件 中 的 . text 区 段 连接 成 一 个 
全 局 变量 . 尊 态 变量 存放 于 该 数据 自 

只 读数 据 段 一 般 用 来 存放 说 明 字符 串 和 不 可 修改 的 数据 

.idata 。 ”| 导入 数据 段 。 | 编译 器 已 将 该 区 段 废弃 ,内 容 合并 到 了 只 读数 据 段 

编译 器 已 将 该 区 段 废弃 ,内 容 合并 到 了 只 读数 据 段 


人 包括 模块 的 全 部 资源 ,如 图 标 、 菜 单 . 位 图 等 存放 于 该 区 段 , 这 是 个 
0 只 读数 据 段 


编译 器 已 将 该 区 段 废弃 ,内 容 合并 到 了 普通 数据 段 
用 于 C++ 运行 时 (CRT) 所 添加 的 只 读数 据 ,比较 少见 


存储 当前 线程 的 上 下 文 信息 ,用 于 线程 变量 访问 ,与 全 局 变量 相 
比 ,不 会 影响 其 他 线程 


存放 重 定向 表 等 数据 
存放 异常 信息 数据 


= 号 工作 


Windows PE 文件 依靠 这 些 头 部 数据 结构 和 区 段 ,将 EXE DLL .SYS 等 文件 组 织 起 来 , 形 
成 内 存 中 的 进程 。 这 也 是 我 们 开发 应 用 程序 时 最 篆 见 到 的 编译 链接 后 生成 的 文件 形态 。 
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最 后 要 强调 一 点 ,除了 上 述 Windows 定义 的 区 段 ,PE 文件 的 开发 者 还 可 以 目 己 定义 区 
段 以 及 区 段 的 使 用 机 制 。 例 如 TCPIP 协议 栈 驱 动 的 tcpip. sys 模块 就 有 奋 干 日 己 定 义 的 区 
段 , 如 PAGE PAGEIDP PAGEIPSE .PAGECONS JINIT 这 5 个 区 段 , 如 图 12 -34 所 示 。 自 己 
来 定义 区 段 以 满足 特殊 用 途 也 是 Rootkit 技术 中 的 常用 手段 。 


CC oo 
oooooco0 orcca oo om om oo 人 


12 一 34 tepip. sys 自 定 义 的 区 段 


本 章 小 结 


本 和 曹 介 绍 了 Windows 可 移植 执行 文件 (PE 文件 ) 的 相关 概念 ,包括 PE 头 、DOS 头 、NT 
头等 重要 头 部 结构 ,以 及 导入 表 .导出 表 ,. 导 人 地 址 表 . 重 定 癌 表 、 延 迟 导 和 人 表 ,资源 表 等 重要 
的 表 结 构 ,最 后 介绍 了 区 段 表 和 所 表示 的 区 段 。 

PE 结构 是 Windows 进程 编译 .链接 和 加 载 的 基础 ,也 是 逆 回 工程、 晋 意 植 人 反 人 侵 等 
技术 的 核心 。 
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Windows 的 启动 是 个 漫长 且 参 与 者 众多 的 过 程 。 在 Windows 启动 之 前 ,无 论 是 什么 操 
作 系 统 , 郡 会 经 历 计算 机 通电 目 检 以 及 目 检 完 成 后 的 司 动 过 程 ,这 个 目 检 后 的 司 动 过 程 又 包 
括 预 引导 .引导 .内核 载 入 .初始 化 及 系统 登录 五 大 步骤 。 而 Windows 启动 前 后 的 参与 者 还 
包括 ROM 中 的 POST 代码 、BIOS/EFIAUEFI、MBR、 引 导 扇 区 、NTLDR 操作 系统 内 核 组 件 
NTOSKRNLZHALZBOOTVIDZKDCOM ,以 及 系统 服务 进程 smss. exe ,csrss. exe ,winlogon. exe 等 等 。 
本 章 我 们 将 按照 图 13 -1 所 示 的 提纲 介绍 系统 启动 过 程 。 
BIOS/EFIVUEFI : 计算 机 启动 方式 


| ROM : 只 读 存储 器 ， 安 全 级 别 高 
_CMOS : RAM 区 域 ， 可 读 可 写 ， 防 止 等 改 计算 机 硬件 配置 信息 _ 


”POST 代 码 : 通电 自 检 代码 ， 最 先 加 载 ， 安 全 级 别 最 高 
| 系统 自 启动 代码 : 跳 转 到 引导 分 区 
引导 分 区 的 两 种 棺 式 : MBR 与 GPT 
引导 扇 区 : 通常 是 磁盘 的 第 一 个 扇 区 
预 引 导 阶 段 流程 

:| 引导 阶段 流程 q 
NTLDR 阶 段 流程 ( 是 引导 阶段 的 最 后 一 步 ) 
与 BIOS 方 式 相 比 的 技术 优势 
{ EFI+GPT 方 式 -| ”EFI 平台 的 构成 和 位 置 

\、EFI 方 式 的 启动 流程 
UEFI+GPT 方 式 //UEFI 方 式 启动 的 7 个 阶段 


图 13-1 本 章 提纲 


系统 启动 的 参与 者 : 


Windows 启 动 过 程 6 


BIOS+ MBR 万 式 


13.1 系统 局 动 的 参与 者 


在 讲述 启动 过 程 之 前 ,我们 先 来 看 一 些 重要 的 术语 。 

1 ) BIOS 

BIOS( Basic Input Output System) ,顾名思义 就 是 基本 输入 输出 系统 。 其 实 BIOS 也 是 固 
化 到 ROM 中 的 代码 ,保存 看 计算 机 加 电 日 检 (POST) 代 码 、 系 统 目 局 动 代码 .CMOS 设置 代 
但 等 。 我 们 第 说 “BIOS 心 放 ” ,其 实 就 是 表示 这 段 代码 存 放 在 ROM 必 上 请 上 而 已 。 

BIOS 代码 是 一 些 汇编 代 人 码 ,在 16 位 的 实 模式 下 调用 int 0x13 中 断 执 行 。16 位 实 模式 能 
直接 访问 的 内 存 为 1 MB( 地 址 线 为 20 位 ) ,因此 BIOS 也 只 能 访问 这 1 MB 的 内 存 ,其 中 前 面 
640 KB 是 基本 内 存 ,是 为 MS-DOS 保留 的 ;后 面 384 KB 作为 扩展 内 存 , 是 供 开 机 所 需 硬 件 以 
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及 其 他 各 类 BIOS 使 用 的 。 
但 随 关 技术 的 发 展 ,目前 市 面 上 的 计算 机 基本 上 采用 EFLUEFTI 而 握 弃 了 BIOS 。 
2) EFI 
EFI( Extensible Firmware Interface ) , 即 可 扩展 固件 接口 ,是 由 Intel 在 2001 年 为 全 新 类 型 
的 固件 体系 结构 .接口 和 服务 提出 的 建议 性 标准 。EFI 的 作用 与 BIOS 对 等 ,也 是 在 启动 过 
程 中 完成 便 件 初始 化 。 但 EFI 却 是 采用 C 语言 编写 的 ,并 且 据 弃 了 BIOS 中 的 中 断 方式 而 改 
为 及 用 EFI 驱动 加 载 的 方式 识别 和 初始 化 便 件 。 不 过 这 个 驱动 也 不 是 二 接 面 癌 CPU 的 ， 
为 它 无 法 被 CPU 直接 执行 ,而 是 由 专用 于 EFI 虚拟 机 上 的 指令 支持 的 ,需要 在 EFI 驱动 运行 
环境 DXE 上 解释 执行 。 与 BIOS 相 比 EFI 是 32 位 或 64 位 的 ,因此 可 实现 更 大 寻 址 。 
3) UEFI 
UEFI 是 EFI 的 2.0 版 本 ,U( Unified) 表 示 统 一 的 ,UEFI 就 是 指 统一 的 可 扩展 固件 接口 。 
与 EFI 相 比 UEFI 有 了 不 少 的 改进 : 
> 具有 完整 的 图 形 驱 动 功 能 ,也 兼容 了 USB 接口 的 鼠标 和 键盘 。 
> 支持 安全 启动 ,CPU 硬件 支持 艇 人 一 个 TPM 芯片 (可 信 计 算 中 的 可 信 平 台 模 块 ) , 支 
持 UEFI 安全 局 动 的 主板 会 根据 这 个 芯片 内 记录 的 人 硬件 签名 对 人 硬件 进行 度量 验证 ,只 
有 符合 认证 签名 的 硬件 驱动 才 会 被 加 载 。Windows 8 及 以 上 的 版 本 在 操作 系统 加 载 
过 程 中 还 要 对 硬件 驱动 检查 签名 ,不 过 这 就 是 操作 系统 级 别 的 安全 机 制 了 。 
总 结 下 来 ,无 论 是 EFI 还 是 UEFI, 都 有 预 加 载 环境 .驱动 执行 环境 和 驱动 程序 这 些 必要 
部 分 ,并 且 两 者 都 仅 文 持 GPT( GUID 分 区 表 ) 磁盘 引导 系统 。UEFT 只 文 持 64 位 操作 系统 。 
4) ROM 
ROM( Read-Only Memory ) 是 只 读 存 储 右 ,是 固化 在 主板 上 的 存储 絮 , 例 如 BIOS 就 是 存 
储 在 ROM 上 的 ,无 法 被 重 写 。 因 此 在 具有 可 信 计 算 蕊 片 的 系统 中 ,ROM 中 的 代码 往往 作为 
可 信 计 算 根 存在 。 
5) POST 代码 
POST( Power On Self Test) 是 通电 上 月 检 人 代码, 计算 机 加 电 后 要 进行 系统 目 检 ,看 看 处 理 
骨 内存、 便 盘 等 固件 是 否 可 用 ,甚至 是 否 有 缺失 。 这 部 分 代码 是 系统 中 最 先 加 载 的 代码 , 安 
全 级 别 最 高 ,因此 必须 放 在 不 可 重 写 的 ROM 上 。 
6) 系统 目 启 动 代 码 
系统 自 启 动 代码 执行 跳 转 操作 跳 到 操作 系统 引导 设备 的 分 区 (例如 硬盘、 启动 光盘 等 )， 
并 将 引导 程序 加 载 到 内 存 从 而 开启 操作 系统 的 启动 过 程 。 
7) CMOS 
CMOS( Complementary Metal Oxide Semiconductor ) , 即 互 补 金属 氧化 物 半 导体 ,现在 
CMOS 沁 指 采用 该 技术 生产 的 起 片 。 
计算 机 中 的 CMOS 芯片 是 一 块 用 来 保存 数据 的 RAM ,由 主板 上 的 锂电 池 供 电 。RAM 中 
的 数据 是 可 读 写 可 更 改 的 ,因此 需要 发 布 出 接口 对 其 进行 更 改 和 读 写 ,这 个 接口 就 是 CMOS 
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加 ss 


设置 代码 。 

CMOS 本 号 存放 了 计算 机 人 硬件 配置 等 信息 ,可 以 对 其 进行 更 改 。 这 些 信 息 虽 然 是 放 在 
RAM 上 的 ,但 CMOS 设置 接口 代码 却 放置 在 BIOS 上 。 

8) MBR 与 GPT 

MBR( Master Boot Record , 主 引导 记录 ) 和 GPT(GUID Partition Table ,全 局 唯一 标识 分 区 
表 ) 是 两 种 不 同 的 磁盘 分 区 类 型 ,两 者 的 主要 区 别 在 于 不 同 的 分 区 绪 构 和 分 区 方法 。 

MBR 支持 的 最 大 卷 为 2 TB ,超过 2 TB 则 不 能 识别 ,并 且 每 个 磁盘 最 多 有 4 个 主 分 区 ， 
或 3 个 主 分 区 加 工 个 扩展 分 区 和 无 限制 的 逻辑 驱动 大。 

GPT 文 持 的 最 大 卷 为 18 EB , 且 每 个 磁盘 文 持 最 多 128 个 分 区 ,同时 GPT 磁盘 有 多 余 的 
备份 分 区 表 来 提高 分 区 数据 绪 构 的 完整 性 。 目 前 的 主流 计算 机 都 已 支持 了 GPT 磁盘 。 

9) 引导 局 区 

引导 忆 区 通 第 是 磁盘 的 第 一 个 刷 区 ,一般 是 刹 盘 的 0 号 柱 面 的 0 号 磁头 的 0 号 悄 区 ,用 
以 加 载 操 作 系统 ,每 个 夯 区 的 大 小 为 512 字 市 。 


13.2 系统 局 动 过 程 


介绍 完了 这 些 参与 者 ,我 们 以 BIOS + MBR(BIOS 方式 ) .EFI + GPT( EFI 方式 ) 和 UEFI 
+ GPT( UEFI 方 式 ) 这 三 种 方式 来 考察 Windows 系统 的 局 动 过 程 。 先 看 最 古老 的 BIOS + 
MBR 的 方式 。 


13.2.1 BIOS +MBR 方式 
我 们 先 来 宏观 地 看 一 下 BIOS + MBR 方式 的 系统 启动 流程 ,如 图 13 -2 所 示 。 


加 载 加 载 加 载 
, Win 内 核 


图 13 -2 ” BIOS 方式 的 系统 启动 流程 ( 图片 来 自 参 考 文献 ) 


BIOS 启动 方式 本 映 并 不 知道 其 他 细节 , 只 会 执行 在 指定 磁盘 上 的 MBR 上 所 发 现 的 二 
进 制 启动 代码 。 这 种 方式 要 经 历 预 引 导 和 5 引导 两 个 阶段 ,图 13 -3 所 示 的 步骤 是 对 BIOS 方 
式 的 启动 流程 的 描述 。 


开机 后 ， 国 化 在 ROM 中 的 BIOS 会 被 加 载 到 内 存 运行 
| “BIOS 自 检 完 毕 就 会 加 载 CMOS 中 的 硬件 参数 | RK/ SW 
通过 CMOS 中 的 参数 ，BIOS 加 载 启动 辜 盘 的 MBR 到 内 存 运行 


| -MBR 的 代码 ,记录 在 MBR 分 区 表 中 标记 为 活动 分 区 的 磁盘 分 区 PBR(Partition Boot 
BIOS 万 式 局 动 而 程 | ”Record) 被 加 载 到 内 存 运行 


PBR 在 运行 后 加 载 操作 系统 加 载 器 ( 如 Windows 的 bootmgr ) 的 代码 到 内 存 运行 
操作 系统 加 各 器 加 载 操作 系统 内 核 到 内 存 运行 ， 进 而 完成 BIOS 的 引导 流程 


13 -3 ” BIOS 方式 的 启动 步骤 的 描述 
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在 引导 阶段 的 最 后 一 步 ,要 把 操作 系统 内 核 加 载 到 内 存 中 运行 ,这 一 步 是 整个 操作 系统 
启动 流程 中 最 耗 时 的 一 步 , 而 这 一 步 也 是 我 们 常 说 的 “NTLDR 阶段 ”, 在 这 个 阶段 要 经 历 以 
(1) 使 CPU 从 16 位 实 模式 进入 32 位 保护 模式 ,如 图 13 -4 所 示 。 
> 实 模式 本 质 上 是 使 用 16 位 的 寄存 器 去 访问 20 位 的 地 址 线 (1 MB 地 址 空间 ) 而 必须 
采用 的 段 基 址 + 段 俩 移 的 内 存 地 址 访问 机 制 。 
> 保护 模式 本 质 上 是 以 32 位 地 址 线 访 问 32 位 地 址 空间 的 访问 机 制 , 即 以 段 基 址 + 段 
偏 移 的 逻辑 地 址 访问 LDTZGDT 得 到 线性 地 址 ,用 线性 地 址 通过 三 级 页 面 表 得 到 物理 


地 址 的 过 程 。 
> 实 模 式 的 寻 址 过 程 无 法 全 部 利用 系统 中 的 内 存 , 因 此 必须 转化 成 保护 模式 。 


x CB 


CPU 


逻辑 地 址 


13 -4 保护 模式 地 址 访问 


(2) 启用 CPU 的 分 页 机 制 。 

(3) 判断 :如 果 是 SCSI 硬盘 , 则 加 载 BtBootDD. sys 用 于 访问 磁盘 ;否则 ,使 用 int 0x13 指 
令 将 菏 届 区 加 载 到 内 存 。 由 于 此 时 文件 系统 (FAT32 或 NTFS 等 ) 尚未 载 人 ,因此 需要 有 一 
个 蔡 代 简易 文件 系统 能 识别 磁盘 上 的 分 区 ,这 就 是 加 载 BtBootDD. sys 的 用 意 。BtBootDD. 
sys 可 以 看 作 一 个 微型 文件 系统 。 

(4) 如 果 发 现 有 效 的 hiberfil. sys( 休眠 管理 ) , 则 加 载 并 恢复 Hibernate。 

(5) 打开 boot. ini 文件 , 读 取 其 中 的 设置 ,如 果 有 多 个 选项 , 则 显示 菜单 ,用 于 选择 要 启 
动 的 操作 系统 ,这 主要 是 针对 安装 了 多 操作 系统 的 情况 。 

(6) 如 果 用 户 按 过 F8 键 , 则 显示 选项 菜单 。 

(7) 加 载 并 执行 ntdetect. com 进行 硬件 检测 。ntdetect. com 调用 BIOS 收集 系统 的 基本 
信息 并 形成 一 个 表 , 表 中 内 容 包括 时 间 总线/ 适配器 类 型 磁盘 信息 可 移动 磁盘 信息 ,输入 
设备 信息 、 浮 点 处 理 带 信息 \、 问 口 信 息 、 串 口 信息 、 显 卡 信息 等 ,并 同时 保存 到 注册 表 相 应 
键 下 。 

(8) 显示 启动 进度 条 或 启动 Splash 服务 。 

(9) 加 载 系 统 上 日 录 下 的 ntoskrnl. exe hal. dll 及 其 依赖 库 ( 先 载 入 ntoskrnl. exe, 后 载 人 
hal. dll ) 。 

(10) 加 载 注册 表 的 System Hive ,并 加 载 其 中 定义 boot 类 型 的 驱动 程序 。 

(11) 执行 ntoskrnl. exe 的 入口 蚊 效 , 开 司 内 核 初 始 化 过 程 。 和 人口 图 数 执行 步 又 包括 : 

CO 执行 KeStartAllProcessors 初始 化 CPU ,这 是 内 核 初始 化 的 起 点 ,如 图 13 -5 所 示 。 
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设置 每 个 CPU 的 GDT、LDT 和 TSS 


分 配 用 于 double fault 型 异常 的 TSS 和 栈 。 所 谓 double fault 就 是 处 理 一 个 早先 的 错误 
时 又 出 现 一 个 错误 ， 这 样 就 总 是 会 导致 系统 故障 


分 配 用 于 处 理 NMI 中 断 的 TSS 和 栈 。 所 谓 NMI 就 是 不可 屏 项 中 断 
CPU 初始 化 分 配 DPC 栈 
将 全 局 变量 ProcessorState 的 ContextFrame 结 构 的 EIP 指 针 指 向 KiSystemStartup 立 数 
z 调用 kiInitializePcr 贸 数 初始 化 PCR 和 0PRCB 
“调用 HAL 模 块 的 HalStartNextProcessor 函 数 启动 该 处 理 器 


13 -S$ CPU 初始 化 过 程 


©@) 执行 KiSystemStartup 初始 化 一 些 系 统 人 硬件 状态 ,并 调用 一 些 系统 初始 化 过 程 , 然后 就 
进入 调度 程序 ,开始 系统 调度 过 程 ,如 图 13 -6 所 示 。 


调用 HalinitializeProcessor ,初始 化 一 部 分 硬件 
执行 KdInitSystem ， 初 始 化 内 核 调试 引 警 


系统 初始 化 EE 1. 执行 KiInitSystem 初 始 化 系统 数据 结构 
| 2. 执 行 KelInitializeThread 初 始 化 idle 线 程 和 进程 结构 体 


执行 KiInitializeKernel ,初始 化 内 核 a 
一 一 一 一 一 一 一 一 一 一 一 一 3. 执行 KelInitializeProcess 初 始 化 CPU 控 制 块 
\ 4. 执行 ExplnitializeExecutive 初 始 化 阶段 0 


下 


和 
Ls 


-TE FE 二 


13 -6 KiSystemStartup 的 执行 过 程 


这 一 步 中 还 包含 了 初始 化 执行 体 , 其 详细 过 程 如 图 13 -7 所 示 。 


是 由 KilnitializeKernel 调 用 ExplnitializeExecutive 发 起 的 
在 初始 的 单线 程 环境 中 执行 各 个 执行 体 的 阶段 0 初始 化 函数 
| 内 存 管理 器 : 构建 页 表 和 内 部 数据 结构 
| 对 象 管理 器 : 建立 对 象 名 称 空间 


执行 体 初始 化 | \_ 油 用 执行 体 各 组 件 的 阶段 0 的 初始 化 函数 _o] | 程 管理 品 执行 PslnitSystem 初 始 化 进程 
线程 对 象 、 建 立 进程 线程 链表 、 创 建 初始 进程 
| idle.exe 并 创建 系统 进程 和 线程 


| PNP 管 理 器 : 初始 化 用 于 同步 的 executive 类 型 的 资源 
该 阶段 在 系统 进程 的 初始 函数 ( Phaselinitialization ) 中 执行 
-{ ”创建 多 个 线程 ， 但 大 多 数 情况 下 只 有 初始 线程 在 执行 


13 -7 执行 体 初始 化 过 程 


当 进 入 到 执行 体 初始 化 这 一 阶段 的 时 候 , 计 算 机 屏 莫 上 就 会 显示 Windows 版 本 的 标志 
了 ,同时 还 会 显示 一 个 深 动 的 进度 条 。 从 这 一 步 开始 我 们 才能 从 屏 茶 上 对 系统 的 局 动 进度 
有 一 个 直观 的 印象 。 这 一 阶段 中 主要 会 完成 4 项 任务 : 

> 创建 Hardware 注册 表 键 

> 对 Control Set 注册 表 键 进行 复制 ; 

> 载 入 和 初始 化 设备 驱动 ; 
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> 局 动 各 个 系统 服务 。 

系统 内 核 成 功 载 人 并 且 成 功 初 始 化 所 有 确 层 设备 驱动 后 ,会 话 管理 大 开始 局 动 高 层 子 
系统 和 服务 ,然后 启动 Win32 子 系统 。Win32 子 系统 的 作用 是 控制 所 有 输入 /输出 设备 以 及 
访问 显示 设备 。 当 所 有 这 些 操作 都 完成 后 ,Windows 的 图 形 界面 就 可 以 显示 出 来 了 ,同时 我 
们 也 可 以 使 用 键盘 以 及 其 他 的 IO 设备 了 。 

接 下 来 会 话 管理 天 司 动 winlogon. exe 进程 。 至 此 ,初始 化 内 核 阶段 已 经 全 部 完成 ,用 户 
可 以 登录 系统 了 。 

登录 时 , 由 会 话 管理 硕 司 动 的 winlogon. exe 进程 将 会 司 动 本 地 安全 性 授权 (Local 
Security Authority ) 子 系统 (lsass. exe) 。 这 一 步 之 后 ,屏幕 上 将 会 显示 Windows 操作 系统 的 欢 
迎 界 面 或 者 登录 界面 。 不 过 此 时 系统 的 启动 还 没有 彻底 完成 ,后 台 可 能 仍然 在 加 载 一 些 非 
关键 的 设备 驱动 或 服务 。 这 些 驱 动 和 服务 加 载 完 成 后 ,操作 系统 局 动 过 程 才 算 全 部 完成 。 


13.2.2 EFI+GPT 方式 


EFI 非常 类 似 于 一 个 微型 操作 系统 ,并 且 也 具有 操控 所 有 硬件 的 能 力 ,其 作用 包括 以 下 
两 方面 : 

> 问 操 作 系 统 的 引导 程序 以 及 某 些 必须 在 计算 机 初始 化 时 运行 的 应 用 程序 提供 一 套 标 

准 的 运行 环境 。 

> 为 操作 系统 提供 一 套 与 固件 通信 的 交互 协议 接口 。 

作为 为 了 全 新 类 型 的 固件 体系 结构 接口 和 服务 提出 的 建议 性 标准 ,EFI 的 固件 具有 下 
面 儿 项 技术 优势 : 

> 文 持 大 容量 磁盘 (超过 2 TB) 的 引导 能 力 。 

> 更 快 的 局 动 速度 。 

> 独立 于 CPU 的 体系 结构 (使 用 EFI 虚拟 机 实现 ) 。 

> 不 依赖 于 CPU 的 独立 驱动 程序 。 

> 灵活 的 预 操 作 系 统 环境 ,包括 网 络 功能 。 

> 模块 化 设计 思想 。 

当然 ,EFI 毕竟 只 是 便 件 和 预 启 动 软件 之 间 的 接口 规范 ,并 不 提供 中 断 啊 应 机 制 , 同 时 
也 需要 以 解释 的 方式 运行 。 

EFI 平 台 由 如 下 几 个 部 分 组 成 :pre-EFI 初始 化 模块 EFI 驱动 执行 环境 、EFI 驱动 程序 、 
EFI 系统 装载 吉 、EFI 上 层 应 用 和 CUID 磁盘 分 区 。 

其 中 ,pre-EFI 初始 化 模块 包括 协议 结构 (负责 与 硬件 直接 交互 ) ,平台 驱动 ,框架 驱动 
(UEFI 扩展 功能 执行 的 基础 ,为 EFI 的 执行 提供 全 流程 支撑 ) 和 兼容 性 支持 模块 (是 X86 平 
台 EFI 系统 中 的 一 个 特殊 模块 ,为 不 具备 EFI 引导 能 力 的 操作 系统 提供 类 似 于 BIOS 的 系统 
服务 ) 。EFTI 系统 装载 器 负责 引导 UEFI 本 身 或 Windows 等 操作 系统 的 启动 。EFI 上 层 应 用 


CJ 应 用 软件 开发 协议 材 Da 


EFI 在 整个 系统 堆栈 中 的 位 置 如 图 13 -8 所 示 , 可 见 EFI 是 介 于 固件 和 操作 系统 之 间 的 
接口 。 图 13 -9 摘 述 了 EFI 方式 的 系统 局 动 流 程 ,图 13 - 10 则 是 对 EFI 方式 局 动 步 缀 的 


操作 系统 


加 载 加 载 局 动 川 载 
初始 化 


图 13 -9 EFI 方式 的 系统 启动 流程 


开机 后 ， 加载 固化 在 只 读 存储 器 RAM 中 的 pre-EFI ( 预 加 载 环 境 ) 
初始 化 程序 ， 进 行 CPU、 主 桥 及 存储 器 的 初始 化 工作 


载 入 EF 驱动 执行 环境 (DXE)， 枚 举 搜索 各 个 硬件 的 UEFI 驱 动 并 相继 
加 载 ， 完 成 硬件 初始 化 工作 // 相 比 BIOS 的 读 中 断 加 载 速度 会 快 得 多 


加 载 和 启动 EFI 系 统 ，EFI 系 统 启 动 后 ，GUID 分 区 表 就 会 被 识别 


和 “之 后 EFI 系 统 通过 加 载 NVRAM 的 参数 来 决定 是 否 启动 BootCamp 
EF 芒 式 司 动 流程 程序 ( 这 是 一 款 Windows 和 MacOSs 互 相 切 换 的 工具 程序 ) 


不 启动 BootCamp 程 序 就 会 启动 装载 程序 (Boot Loader) 加 载 操 作 
系统 内 核 ， 完 成 EFI 的 引导 流程 


13 一 10 ”EFI 方式 的 启动 步骤 描述 


EFI 是 一 种 取代 传统 BIOS 方式 的 技术 ,不 但 在 引导 期 提供 接口 ,甚至 也 为 引导 之 后 的 
系统 运行 提供 了 接口 。 

在 EFI 方式 的 启动 流程 中 ,最 后 一 步 是 加 载 操 作 系 统 内 核 , 这 个 过 程 与 BIOS 方式 的 
“NTLDR 阶段 "基本 一 致 ,这 里 不 再 更 述 。 


13.2.3 UEFI +GPT 方式 


UEFI 方式 的 系统 局 动 过程 是 目前 计算 机 系统 最 先进 、 最 安全 的 启动 过 程 。 

BIOS 方式 局 动 时 ,操作 系统 的 Boot Loader 存放 在 MBR 中 。 而 MBR 充其量 也 就 是 一 个 
512 字 节 的 扇 区 ,能 有 多 大 ? 所 以 Boot Loader 代码 的 容量 很 受 限制 。 但 是 UEFI 引入 了 一 个 
新 的 系统 分 区 ESP( EFI System Partition ) ,这 个 分 区 存储 Boot Loader 和 EFI 驱动 ,容量 大 大 
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增加 。 计 算 机 局 动 时 ,UEFI 固件 先 从 ESP 中 加 载 所 需 的 硬件 驱动 ,再 执行 Boot Loader 指定 
的 操作 系统 。 如 图 13 一 11 所 示 ,UEFI 方式 的 启动 流程 包含 了 7 个 阶段 。 


UEFI 
接 


UEFIA 用 


UEFI shell 


操作 系统 应 用 


本 
探 从 系统 yp 
用 条 操作 系统 区 
EE 
EEI 贡 四 | 驱动 执行 环境 | 局 强 党 香 | 操作 系统 加 载 前 期 | ”运行 时 
初 站 化 | 开动 执行 环境 | 吐 择 “| 操 作 系统 加 本 


PE] 


关机 


[… 加 载 操 作 系 统 …] 
图 13 一 11 UEFI 方式 的 系统 启动 流程 和 操作 系统 加 载 的 7 个 阶段 


加 电 一 一 = |... 平台 初始 化 …] 


> SEC 阶段 :这 个 阶段 以 汇编 代码 为 主 ,完成 的 工作 主要 包括 获取 CPU 检测 结果 ,找到 
PEI 的 二 进 制 代码 ,并 跳 转 到 PEI 执行 人 口 。 

> PEI 阶段 :这 个 阶段 以 C 语言 代码 为 主 ,完成 的 工作 主要 包括 CPU 初始 化 内存 初始 
化 .芯片 和 主板 初始 化 ,并 将 上 述 初始 化 结果 通过 HOB(Hand-off Block ,是 PEI 阶段 向 
DXE 阶段 传递 系统 信息 的 手段 ,本 质 上 是 一 系列 连续 的 内 存 结构 体 ) 传递 到 下 一 阶段 ， 
如 图 13 -12 所 示 。 


PEILA 口 
Cpu PE 


| | CPU 相关 功能 ， 例 如 
Cache 设 置 、 主 频 设 置 等 
初 如 化 PS(PEI Core Service) 


| 平台 相关 PEIM， 例 如 初始 化 
调度 系统 中 的 
PEIM(PEI Module) 


内 存 控制 器 、IO 控 制 器 


内 存 初 始 化 PEIM 
准备 HOB 列 表 


(利用 DXE IPL PPI 找 到 ) 


Dxelpl—>Entry 


(调用 DxeLoadCore 加 载 DXE) 


13 一 12 PEI 阶段 的 执行 流程 
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应 用 软件 开发 协议 栈 LI 

> DXE 阶段 :这 个 阶段 运行 符 干 驱动 模块 ,每 个 模块 完成 不 同 的 工作 ,有 的 是 提供 功能 
服务 ,有 的 则 初始 化 硬件 ,如 图 13 一 13 所 示 。 

> BDS 阶段 :这 个 阶段 生成 和 枚 举 启 动 项 ,并 选择 其 中 一 个 启动 项 加 载 操 作 系 统 ,同时 
”也 负责 一 些 硬件 初始 化 工作 。 


这 4 个 阶段 完成 ,后 面 就 是 加 载 和 运行 操作 系统 了 ,当然 这 个 过 程 是 可 以 有 UEFI 参 
与 的 。 


这 有 历 回 件 中 的 所 有 Driver， 当 
Driver 好 依 于 的 软 源 者 i 油 丰 时 ， 贡 
度 Driver 到 执行 队列 执行 ， 直 到 所 
有 满足 条 件 的 Driver 都 被 加 载 


图 13-13 DXE 阶段 的 执行 流程 


图 13 一 14 是 对 UEFI 方式 的 局 动 步骤 的 描述 ,从 中 可 以 看 出 ,UEFI 局 动 方式 的 一 大 特 
点 就 是 增加 了 安全 验证 阶段 ,并 且 是 第 一 阶段 。 这 个 阶段 就 是 瞄准 Rootkit 和 Bootkit 攻击 问 
题 而 增加 的 ,其 设计 借鉴 了 可 信 计 算 的 思想 。UEFI 规范 规定 了 固件 可 以 包含 一 系列 签名 ， 
并 拒绝 运行 未 签名 或 签名 与 固件 中 包含 的 签名 不 一 致 的 EFI 可 执行 文件 。 不 过 安全 启动 是 
个 可 选项 ,用 户 也 可 以 选择 关闭 这 个 功能 。 正 因为 如 此 ,我 们 称 UEFI 是 目前 计算 机 最 安全 
也 最 先进 的 启动 方式 。 


二 处理 系统 启动 和 重启 信号 
初始 化 临时 存 慷 区域 // 该 阶段 外 部 设备 和 内 存 均 未 初始 化 ， 因 此 需要 一 些 临 时 RAM 
作为 可 信 系统 的 根 


SEC 阶段 的 任务 < 


传递 系 统 参 数 给 下 一 阶段 ( 即 PEI 阶 段 ) //SEC 要 把 控制 权 转 交 给 PEI 
内 存 到 了 PEI 后 期 才 被 初始 化 


“主要 功能 是 为 DXE 准 备 执行 环境 ， 将 需要 传递 到 DXE 的 信息 组 成 HOB ( Hand-off 
”PEI 阶段 ”S| Block ) 列表 ,最 终 将 控制 权 转 交 到 DXE 手 中 


Ee i PEI tens 派 遗 器 : 主要 功能 是 找 出 系统 中 的 所 有 PEIM ，, 并 根据 PEIM 之 间 


z JPEIM。 PEI 阶 段 对 系统 的 初始 化 主要 是 由 PEIM 完 成 的 ， 
U EFI 启 动 洲 程 = DXE ( Driver Execution Environment ) 阶段 执行 大 部 分 系统 初始 化 工作 


DXE 阶 段 5 
此 阶段 内 存 完 全 可 用 
BDS 阶 段 SS ”BDS (Boot Device Selection ) 的 主要 功能 是 执行 启动 策略 


操作 系统 加 载 器 ( OS Loader ) 执行 的 第 一 阶段 
一 (人 这 _ 阶 段 OS Loader 作 为 一 个 UERI 应 用 程序 运行 ， 夭 统 光源 胃 然 由 UEFI 内 术 控 制 
”系统 的 控制 权 从 UEFI 内 核 转交 到 OS Loader 手 中 
i UEFI 占 用 的 各 种 资源 被 回收 到 OS Loader 


13 一 14 UEFI 方式 的 启动 步骤 描述 
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UEFI 需要 额外 的 存储 空间 ,因此 UEFI BIOS 不 再 被 放 在 ROM 中 , 而 是 在 硬盘 中 划分 出 
一 块 FAT32 格式 的 扇 区 (ESP) 来 存放 UEFI 相关 的 各 类 数据 ,例如 EFI 驱动 和 应 用 程序 。 但 
如 果 人 硬盘 发 生 损坏 或 ESP 上 的 数据 被 病毒 自 改 删除 , 则 会 引发 更 大 的 安全 隐患 。 因 此 ,利用 

术 加 固 UEFI 驱动 和 应 用 程序 的 安全 性 是 未 来 的 重要 谍 题 。 


本 昔 总 结 了 Windows 司 动 过 程 中 各 个 参与 者 的 分 工 ,并 结合 三 种 局 动 方式 摘 述 了 
Windows 的 启动 过 程 。 
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第 [04D 革 ”Windows 内 存 安全 机 制 


安全 漏洞 是 计算 机 科学 目 诞 生 以 来 就 存在 的 固有 项 疾 。 无 论 是 便 件 设计 还 是 软件 代 
码 , 只 要 是 人 写 的 代码 ,总 会 有 漏洞 存在 。 应 用 软件 上 的 一 个 小 Bug ,甚至 一 个 保护 机 制 不 
是 很 严密 的 设计 逻辑 , 轻 则 使 进程 运行 前 溃 , 重 则 成 为 安全 漏洞 被 外 界 利用 来 “做 坏事 ”。 而 
这 些 坏事 多 种 多 样 , 有 的 可 以 监控 当前 系统 的 运行 ,有 的 可 以 截取 通过 键盘 输入 的 内 容 , 更 
有 甚 者 可 以 接管 操作 系统 的 运行 权 。 

例如 2017 年 爆发 的 “永恒 之 蓝 ”( Eternal Blue ) 系列 漏洞 ,就 是 利用 了 Windows 系统 的 
SMB 漏洞 来 获取 系统 的 最 高 权限 ,黑客 利用 这 种 漏洞 开发 了 WannaCry 勒索 病毒 ;而 2018 年 
的 “熔断 ”(Meltdown) 和 ”幽灵 ”(Spectre) 则 全 指 更 底层 的 X86/X64 CPU 的 分 文 预测 执行 机 
制 ,利用 这 种 机 制 进行 侧 信道 攻击 以 获取 缓存 中 的 数据 。 这 种 侧 信 道 攻击 方法 的 前 两 种 变 
体 被 称 为 "Meltdown”, 第 三 种 变 体 被 称 为 "“Spectre ”。 

不 过 ,安全 漏洞 与 安全 防护 机 制 从 来 就 是 此 消 彼 长 的 “拉锯 战 ”, 有 汤 洞 日 然 就 会 有 弥补 漏 
洞 的 安全 机 制 存 在 。 随 着 操作 系统 的 发 展 和 完善 ,Windows 的 安全 体系 逐渐 成 熟 , 形 成 了 和 震 干 
独立 的 安全 机 制 。 在 Windows 系统 安全 领域 , 洪 出 类 漏洞 占据 了 绝 大 多 数 , 其 他 则 为 数据 安全 
(加 解密 .压缩 ) .WEB 安全 和 网 络 安全 等 这 些 细 分 领域 造成 的 威胁 。 从 本 质 上 讲 , 操 作 系 统 注 
出 类 漏洞 生存 的 土壤 是 “数据 代码 和 指令 代码 都 不 加 以 区 别 地 存放 于 内 存 之 中 ” ,大 部 分 软件 
溢出 漏洞 都 是 利用 了 这 种 机 制 : 做 坏事 的 指令 以 看 似 人 畜 无 害 的 数据 形式 存在 于 内 存 中 ,一旦 
条 件 成 熟 就 会 被 触发 执行 。 因 此 Windows 防护 机 制 首先 面 对 的 就 是 溢出 漏洞 。 

本 章节 按照 图 14 -1 所 示 的 提纲 讲述 Windows 系统 的 内 存 安全 机 制 ,特别 是 面 对 溢 出 类 
漏洞 时 Windows 的 种 种 内 存 防护 机 制 。 在 此 之 前 我 们 先 来 看 一 下 漏洞 与 病毒 的 定义 与 分 类 。 


14.1 软件 漏洞 与 病 辫 


14.1.1 软件 漏洞 


向 单 地 说 ,软件 漏洞 是 操作 系统 或 应 用 软件 本 号 存在 的 缺陷 ,这 种 缺陷 往往 被 恶意 程 序 
利用 而 成 为 威胁 寄生 的 温床 。 软 件 漏 洞 大 致 分 为 如 下 几 种 。 

1. 缓冲 区 溢出 漏洞 

缓冲 区 淤 出 漏洞 通过 四 进程 的 缓冲 区 (例如 堆栈 ) 写 人 超过 缓冲 区 当前 栈 帧 最 大 数据 量 的 
恶意 代 公 使 之 溢出 (例如 堆栈 溢出 , 窗 盖 和 超出 堆栈 的 边界 上 线 ) ,打破 进程 当前 栈 帧 的 平衡 
(修改 为数 栈 帧 中 的 返回 地 址 ) ,从 而 在 函数 调用 返回 时 通过 返回 地 址 获取 进程 的 执行 控制 权 ， 
如 图 14 -2 所 示 。 这 种 漏洞 是 操作 系统 和 应 用 软件 中 存在 最 为 广 沁 、 箱 主 代码 种 类 最 为 索 多 、 
占 比 最 大 的 一 种 漏洞 。 通 过 海 出 绑 亲 了 原 有 堆栈 数据 的 这 段 代码 被 称 为 “跳板 ”(ShellCode ) 。 
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_ 术 尖 册 漏洞 
组 站 区 省 出 漏洞 “日 | ” 堆 尖 出 漏洞 六 六 
: SEH 溢 出 泼 洞 . 


漏洞 与 病毒 。 c| ，。 数字 溢出 漏洞 、SQL 注 入 漏洞 、6ypass 漏 洞 、 越 权 型 漏洞 等 


| 扶 旺 补丁 出 现时 间 分 类 : 0Day、1Day、NDay AAA 
病毒 分 类 及 其 特征 码 AAA、 
病毒 全 AL 
”病毒 的 代码 混淆 应 朵 
ee 二 
启动 DEP 后 堆栈 溢出 的 流程 、 
| 又 
DEp 机 制 ”日 Windows DEP 的 4 种 状态 所 
PE 对 于 ASLR 的 支持 
六 SLR 机 制 已 
ASLR 的 技术 原理 


1 
1 

1 

I 

| 

| 

| 

Da 


| Security Cookie 的 技术 原理 、 流 程 


Security Cookie 机 制 局 
应 对 漏洞 间隙 : 变量 重 排 技 术 
内 存 防护 机 制 ”6 


SafeSEH 机 制 : 原理 、 流 程 


”SEHOP 机 制 。 原理 和 限制 条 件 
”Patch Guard 机 制 : 原理 、 保 护 范围 
safe Unlinking 机 制 : 原理 
| _ CFG 机制 : 原理 

Secure Boot 机 制 喜 于 各 寺内 各 衣 孝 ,是 安全 语 动 的 苞 天 


14-1 本 章 提 纲 

绥 冲 区 洪 出 漏洞 又 可 分 为 栈 洪 出 、 堆 溢出 和 SEH( 结 
构 化 异 向 处 理 ) 洲 出 等 类 型 ,其 中 SEH 液 出 也 是 基于 栈 洲 
出 的 原理 。 由 于 SEH 结构 是 保存 在 栈 中 的 ,因此 利用 栈 
洲 出 淹没 SEH 的 异常 处 理 例 程 指 针 (Handler 指针 ) ,也 就 
是 使 用 ShellCode 窗 关 Handler ,由 于 发 生 异 党 时 系统 跳 转 | 
到 Handler 处 执行 ,因此 也 就 跳 转 到 了 淹没 Handler 的 5 
ShellCode 革 处 执行 ,从 而 接管 了 异 篆 发 生 时 的 线程 执行 栈 
权 。 不 过 从 Windows XP 版 本 开始 系统 添加 了 SEH 处 理 
的 保护 机 制 SafeSEH , 仅 通过 淹没 Handler 的 方式 截取 进 
得 控制 权 已 经 行 不 通 了 。 表 14 -1 列 出 了 堆栈 溢出 的 一 Ta 
股 性 攻击 方法 及 其 保护 技术 。 入 


表 14-1 堆栈 溢出 的 一 般 性 攻击 方法 及 其 保护 技术 


钞 善 返回 地 址 通过 GS 编译 选项 加 以 保护 ,其 原理 是 在 函数 调用 堆栈 上 插入 一 个 安全 
ee Cookie 以 检测 返回 地 址 是 否 被 修改 


覆盖 SEH 地 址 通过 SafeSEH .SEHOP 保护 方式 加 以 保护 
覆盖 本 地 变量 可 被 VC 编译 占 重 新 整理 和 优化 ,重新 调整 本 地 变量 在 堆栈 中 的 位 置 
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通过 safe unlink 方式 保护 ,该 方式 根据 双 回 链表 的 特点 检查 前 向 和 后 回 指 


了 要 六 2 XY [各 | 必 丰 去 
敢 兰 空 采 堆 双 回 链 表 针 的 有 效 性 


Windows XP 下 使 用 8 位 的 Header Cookie 进行 保护 , Windows Vista 之 后 使 
用 XOR HeaderData 


覆盖 旁 视 列 表 ( lookaside 
list ) 

缓冲 区 溢出 漏洞 还 包括 格式 化 字符 串 漏洞 ,这 是 一 种 针对 print 类 函数 (例如 printf、 
sprintf .fprintf 等 ) 的 漏洞 ,因此 比较 有 局 限 性 。 由 于 这 类 上 六 数 在 C 语言 中 文 持 可 变 参 数 , 因 
此 调用 者 可 以 目 由 指定 图 数 参数 的 数量 和 类 型 , 而 被 调用 者 无 法 知道 在 国 数 调用 之 前 到 底 
有 多 少 参 数 被 压 人 栈 帧 当中 ,从 而 利用 这 种 机 制 进 行 栈 溢 出 造成 漏洞 ,所 以 格式 化 字符 串 漏 
洞 本 质 上 也 属于 缓冲 区 溢出 漏洞 。 

2. 数字 溢出 漏洞 

计算 机 系统 中 的 整数 变量 有 上 下 界 , 如 采 在 和 拭 林 运算 中 发 生 越 界 , 就 会 出 现 两 类 整数 淤 出: 

> 超出 整数 类 型 的 最 大 表示 范围 ,数字 便 会 由 一 个 极 大 值 变 为 一 个 极 小 值 或 耳 接 归 零 ， 

这 叫 作 “上 淤 ”; 
> 超出 整数 类 型 的 最 小 表示 范围 ,数字 便 会 由 一 个 极 小 信 或 者 零 变 成 一 个 极 大 值 , 这 趾 
作 * 下 滋 "。 

在 金融 行业 数字 溢出 漏洞 属于 危险 等 级 ea a 下 浴 ”) 。 
整数 洲 出 不 需要 改写 内 存 或 控制 程序 执行 流程 ,因此 更 难以 察觉 。 第 见 编译 赫 下 的 整 效 类 
型 的 数值 范围 如 表 14 一 2 所 示 。 

表 14 -2 常见 编译 器 下 整数 类 型 的 数值 范围 


Windows Vista 版 本 之 后 旁 视 列表 已 被 移 除 


unsigned short 2 与 短 整 型 


VC++6.0 usinged long 4 294 967 295 


_int64 64 位 整数 -9 223 372 036 854 770 000 9 223 372 036 854 770 000 223 372 036 854 770 000 
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续 表 14 -2 


3，SQL 注入 漏洞 
在 没有 对 用 户 输入 数据 的 合法 性 进行 判断 的 情况 下 ,可 以 提交 一 段 数据 库 查询 代码 , 根 
据 程 序 返 回 的 结果 ,获得 某 些 攻击 者 想 得 知 的 数据 ,这 种 漏洞 称 为 SQL 注入 漏洞 。SQL 注入 
漏洞 属于 Web 安全 领域 的 漏洞 。 
4. Bypass 漏洞 
也 叫 作 开放 重 定 加 (Open Redirect ) 漏洞 , 即 在 访问 B/S 系统 时 用 户 输入 某 个 URL 链接 
而 跳 转 到 攻击 者 控制 的 恶意 网 站 。Bypass 漏洞 属于 Web 安全 领域 的 漏洞 。 
5. 越权 型 漏洞 
由 于 服务 需 问 对 客户 疹 提 出 的 数据 操作 请 求 权 限 不 加 以 判定 ,导致 客户 妆 拥 有 过 大 的 
权限 来 进行 增删 改 ` 查 操作 ,这 种 漏洞 被 称 为 越权 型 漏洞 。 越 权 型 漏洞 又 分 为 水 平 越权 和 
王 下 越权 两 种 ,前 者 是 指 攻击 者 尝试 访问 与 之 有 相同 权限 的 用 户 资 源 ,后 者 则 是 指 攻 击 者 尝 
试 访问 更 高 或 更 低级 别 用 户 的 资源 。 
以 上 从 功能 上 对 漏洞 进行 了 分 类 , 除 此 之 外 还 可 以 按照 漏洞 被 发 现 和 破解 时 间 的 长 短 
> 0Day 漏洞 :一般 是 指 软件 发 布 后 在 很 短 时 间 内 被 发 现 或 破解 的 漏洞 ,也 就 是 新 发 现 
的 漏洞 ,对 应 的 补丁 还 没有 发 布 。0 即 Zero ,0Day 就 表示 未 超过 24 小 时 ,当然 这 是 对 
短 时 间 的 形象 表示 ,并 不 是 说 一 天 内 破解 的 漏洞 。 
> 1Day 漏洞 :一 般 是 指 已 经 通过 各 种 途径 曝光 过 的 漏洞 。 
> NDay 漏洞 :一般 是 指 由 于 计算 机 用 户 没 有 安装 相应 的 漏洞 补丁 ,而 被 恶意 程序 利用 
公开 已 知 的 漏洞 攻击 ,这 种 情况 造成 的 漏洞 被 称 为 NDay 漏洞 。 


14.1.2 病毒 


如 果 说 漏洞 是 被 利用 的 ,那么 病毒 则 是 漏洞 利用 的 答 主 ,具有 感染 性 ,潜伏 性 和 表现 性 
三 个 基本 特点 。 病 毒 大 致 按照 表 14 -3 所 示 进 行 分 类 。 
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表 14-3 常见 病毒 分 类 


感染 PE 文件 (. exe 或 . com 文件 ) 
通过 文件 系统 感染 的 病毒 统称 一 般 位 于 PE 文件 的 头 部 或 尾部 
为 文件 型 病毒 执行 被 感染 程序 后 ,病毒 一 般 从 入 口 函 数 开始 
执行 以 获取 进程 控制 权 
。 先 于 操作 系统 加 载 启 动 
占据 主 引 导 扇 区 或 引导 扇 区 的 全 部 或 一 部 分 ， 
通过 感染 人 硬盘 引导 局 区 或 主 引 并 将 分 区 表 信 息 或 引导 记录 移 到 人 磁盘 的 其 他 
引导 型 病毒 导 启 区 的 病毒 统称 为 引导 型 位 置 
病毒 引导 时 首先 获取 系统 控制 权 , 继 而 将 病毒 的 主 
要 部 分 调 人 内存 并 驻 留 在 内 存 高 址 部 分 ,但 最 
后 仍 会 跳 转 到 主 引 导 记 录 
Word 中 被 租 人 入 禹 有 恶意 行为 的 宏 代 码 ( VBA 
代码 ) , 当 打 开 带 有 宏 病 毒 的 Word 文档 时 宏 代 
公会 自动 运行 
利用 的 是 Office 提供 的 对 于 VBA 脚本 的 支持 
WPS 不 支持 宏 ,不 会 感染 宏 病 毒 


亚 意 脚本 变形 傈 单 , 混 请 机 制 多 样 
出 于 恶意 对 软件 系统 进行 增加 、 可 以 动态 创建 内 藤 链 接 和 编码 链接 内 容 
改变 或 删除 的 任何 脚本 依赖 于 浏览 器 ,利用 漏洞 下 载 木 马 

包括 Java\Python\JS 等 脚本 形态 


。 具有 隐蔽 性 .其 骗 性 以 保证 生存 
在 计算 机 系统 中 种 植 的 以 窃取 具有 自 运 行 .自动 恢复 的 能 力 
信息 为 目的 的 后 门 程序 一 般 依赖 于 TCP/IP 协议 进行 通信 ,会 悄悄 打开 
端口 
pe | 利用 电子 邮件 等 途径 进行 传播 
人 。 能够 利用 漏洞 传播 自身 和 自 拷 风 

e 攻击 形式 一 般 是 扫描 一 攻击 一 复制 


Ht 


虽然 病毒 分 类 五 花 八 门 ,但 是 也 都 具有 一 定 的 特征 码 (包括 单一 特征 码 和 复合 特征 码 ) ， 
这 些 特征 但 按照 簿 主 介 质 又 可 以 分 为 : 

> 文件 特征 码 : 病 毒 代 码 在 磁盘 上 以 文件 态 存 在 时 的 特殊 指令 或 数据 字符 。 

> 内 存 特 征 码 :病毒 代码 在 内 存 中 以 运行 态 存在 时 的 特殊 指令 或 数据 字符 。 

> 行为 特征 码 :病毒 在 内 存 中 运行 时 的 特殊 行为 状态 ,例如 内 存 使 用 、API 调用 、 弹 / 压 堆 

病毒 为 了 更 好 地 隐藏 目 己 ,一 般 会 来 用 加 元 、 花 指 令 或 不 缩 等 方式 改变 目 己 的 特征 人 码 形 
态 ,当然 这 些 手段 也 可 以 用 于 代码 混 消 .代码 防 破解 : 

> 加 过 :通过 一 系列 数学 运算 将 可 执行 程序 或 动态 链接 文件 的 编码 进行 改变 ,以 达到 缩 

小 程序 代码 体积 或 加 密 程 序 代码 的 目的 ,病毒 代码 也 因此 隐藏 。 由 于 杀毒 软件 无 法 


文件 型 病毒 


利用 Word Excel 等 软件 的 宏 脚 
本 功能 进行 传播 的 病毒 
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发 现 丰 正 的 病毒 体 , 利 用 这 种 方法 可 以 逃避 查 杀 和 隐 菩 日 喘 。 
> 花 指 令 :一 串 没 有 任何 实际 意义 的 指令 ,使 程序 的 分 析 者 或 破解 者 无 法 清楚 正确 地 反 
汇编 程序 的 内 容 , 从 而 达到 隐 藤 上 日 身 贞 实意 图 的 目的 。 
> 压缩 :病毒 有 时 候 会 隐藏 在 压缩 包 里 ,这 束 要 求 杀 毒 软件 有 人 解 压缩 探测 能 力 ,从 而 增 
加 了 杀毒 软件 查 杀 病毒 的 门槛 \ 步 缀 和 开销 ,也 可 以 在 一 定 程 度 上 达到 隐蔽 日 喘 、 远 
脱 查 杀 的 目的 。 
了 解 了 上 述 内 容 后 ,我 们 来 考察 一 下 Windows 在 系统 安全 领域 的 保护 机 制 ,特别 是 基于 
内 存 的 保护 机 制 。 这 些 机 制 虽然 能 够 极 大 地 提高 独 洞 发 生 和 病毒 植 人 的 门 覃 , 但 仍 不 能 杜 
绝 汤 洞 和 病毒 的 产生 。 操 作 系 统 中 的 攻击 与 保护 本 来 就 是 此 消 彼 长 的 ,保护 方式 改进 了 , 攻 
击 方式 也 必然 会 推陈出新 ,从 而 更 加 考验 你 护 方式 。 同 时 ,两 者 之 间 的 技术 手段 也 不 是 非 黑 
即日 的 ,这 些 手段 既 可 以 用 来 保护 , 亦 可 以 用 来 攻击 。 


14.2 ”DEP 机制 


DEP( Data Execution Prevention ,数据 执行 保护 ) 可 以 在 内 存 页 面 上 做 检查 以 防止 存放 数 
据 的 内 存 运行 代码 。DEP 本 质 上 是 将 数据 所 在 的 内 存 页 面 标示 为 “不 可 执行 页 ”, 由 于 当 程 
序 溢出 时 要 转 人 ShellCode 执行 ,因此 必然 是 在 堆栈 缓冲 区 的 内 存 页 面 上 执行 ,而 此 处 的 页 
面 是 数据 内 存 页 面 ,启用 DEP 机 制 后 CPU 会 抛 出 异常 从 而 禁止 在 这 些 数 据 内 存 页 面 执行 
ShellCode 。 

局 用 和 未 局 用 DEP 机 制 的 堆栈 溢出 流程 比较 如 图 14 -3 所 示 , 开 启 DEP 机 制 后 执行 
ShellCode 会 转 到 异常 处 理 流程 。 


CPU 检测 到 在 非 可 | 
执行 区 域 执行 指令 , ' 


味 板 指令 


.stack Data... 


Buffer(ShellCode) 


。 EE, 
二， 将 禁止 执行 指 f 
| 


(ShellCode) 令 并 抛 出 
人 | 


通过 跳板 跳 入 ...(ShellCode) 


ShellCode 执 行 
搞 行 (ShellCode) 


14 -3 未 启用 DEP 机 制 与 启用 DEP 机 制 后 的 堆栈 溢出 流程 


数据 内 存 页 面 主要 是 指 排 栈 ,内存 池 等 存放 数据 而 非 存放 指令 的 内 存 页 面 (X86 体系 下 
传递 参数 时 ,大 多 以 堆栈 为 主 , 吨 数 内 部 创建 的 局 部 变量 也 是 存放 在 堆栈 中 ,因此 堆栈 构成 


El 
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了 数据 内 存 页 面 的 主体 ) 。DEP 机 制 一 般 是 采用 人 硬件 机 制 实现 的 ,与 软件 实现 机 制 相 比 其 检 
查 效率 更 高 。Intel 和 AMD 的 CPU 都 为 DEP 机 制 做 了 专门 的 设计 ,工作 原理 也 都 差不多 ,其 
中 Intel 的 DEP 机 制 称 为 “Execute Disable Bit(XD)”,AMD 的 DEP 机 制 称 为 “No-Execute 
Page-Protection( NX)”, 何 单 来 说 就 是 由 操作 系统 来 设置 内 存 丰 的 ND/ANX 属性 ,指出 哪些 内 
存 页 面 不 能 被 执行 ,因此 在 操作 系统 的 内 存 页 面 表 中 要 加 入 一 个 NDZNX 标志 位 ,用 于 标注 
页 面 的 不 可 执行 属性 。 
Windows 从 XP2 版 本 开始 支持 
了 DEP 机 制 , 当 然 该 机 制 是 可 以 选 
择 性 开局 的 ,用 户 可 以 日 主 选择 不 
需要 被 DEP 机 制 保护 的 服务 或 程 
序 , 除 此 之 外 的 程序 都 会 被 DEP 机 
制 保护 ,如 图 14 -4 所 示 。 
DEP 机 制 的 工作 状态 分 为 以 
下 4 种 : 
> Optin 状态 :DEP 仅 应 用 于 Windows 系统 组 件 和 服务 ,Optin 状态 一 般 用 于 Windows 桌 
面 系统 ,同时 也 是 系统 的 默认 状态 。 
> Optout 状态 :对 图 14 -4 中 ”为 除 下 列 选 定 程序 之 外 的 所 有 程序 和 服务 局 用 DEP” 列 
表 之 外 的 所 有 程序 局 用 DEP, Optout 状态 一 般 用 于 Windows 服务 大 系统 。 
> i 状态 :对 系统 中 的 所 有 程序 启用 DEP, 有 DEP 不 可 以 被 关闭 ,AlwaysOn 状 
态 只 支持 64 位 系统 。 
> AlwaysOff 状态 :对 系统 中 的 所 有 程序 禁用 DEFP, 上 且 DEP 不 可 以 被 开启 。 
同时 ,大 多 数 现 代 编 译 吉 也 支持 对 所 编译 程序 代码 的 DEP 使 能 选项 ,如 图 14 -5 所 示 。 
DEP 使 能 编译 后 的 PE 文件 可 选 头 结构 IMAGE_ OPTIONAL_ HEADER 会 被 IMAGE _ 
DLLCHARACTERISTICS_NX_COMPAT 标志 置 位 (DllCharacteristics 的 Image is NX compatible 
选项 被 选中 ) ,如 图 14 -6 所 示 ,不 过 只 在 Windows 7 及 以 上 版 本 中 才 有 效 ， 


映像 名 称 “ CPU 工作 设 . .. 。 财 值 工作 设 ... 提交 大 小 ”数据 执行 保护 


eh 


图 仅 为 基本 Windows 程序 和 服务 启用 DEF (7) 
各 为 除 下 列 选 定 程序 之 外 的 有 所 有 程序 和 服务 启用 DEF 0) : 


图 14-4 Windows 7 64 位 系统 下 对 于 DEP 机 制 支持 的 选择 


内 存 合用 工 ... 


Foxmall, exe 32 
Foxmail, exe *32 
Foxmail, exe de 
HuaseiliSuiteServ. .. 
ibmpmswe. exe 
igfxCUTServiee, exe 
1gfxEN. exe 

Jisuf df, exe *32 
lenovodrysrv, exe *32 
Locator. exe 

Ss. ee 

卫 豆 而 。 看 臣 包 

lvyvsst, exe 

Maset hon, ere 32 
Maasect hon, exe cw 人 3 
Maxthon, exe *32 
Maxthon, exe 32 
Maxthon, exe 32 
Masethon, exe 32 

卫 aethuon, eR 率 3 了 2 
MmDNSResponder. exe 


S88888888888888888888 


26, 916 K 
30, 744 K 
53, 280 K 
9, 440 K 
4, 728 K 
T, 072 Kk 
66, 920 K 
340, 924 KK 
20, 046 K 
2,552 Kk 
13, 580 kK 
4, 928 Kk 
B, B88 KK 
102, 376 K 
39, 092 K 
70, 780 K 
212, 504 kK 
222, 580 kK 
350, 352 Kk 
26, T16 K 
6, 800 Kk 


5,740 kK 
21, 300 K 
27, 500 K 

2,758 Kk 

1, 448 Kk 

1,780 K 
11,048 kK 

324, T72 K 

10, 846 K 

880 其 

4, 896 其 

1, 956 K 

2,338 kK 
77,096 K 
22, 196 K 
37, 896 K 
140, 692 K 
180, 900 K 
316, B24 kK 
11 040 kK 

2 7T40 Kk 


42, 7T16 K 
198, 900 EK 


230, Tl2 KK 悍 
369, 100 KE 1 


14, 504 K 
2,924 K 
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SizeOfStackCommit 


SizeOfHeapReserve | mape is MX compatbie 

: - Image understands isolation and doesn't want it 

SizeOfHeapCommit Image does not use SEH 
Do not bind this image 

| | 

Loaderflags Driver uses WDM model 


图 14--6 PE 可 


不 过 ,DEP 机 制 也 不 是 万 能 的 。 首 先 ,版 本 较 老 的 CPU 和 操作 系统 不 文 持 DEP 机 制 ;其 
次 ,Windows 也 不 是 对 所 有 进程 都 采用 DEP 机 制 进行 保护 ,因为 采用 DEP 机 制 后 许多 依赖 
于 内 存 页 面 执行 的 非 恶 意 进 程 就 无 法 正 第 工作 了 ; 画 外 , 进 程 中 一 旦 有 一 个 模块 不 文 持 DEP 
机 制 , 则 整个 进程 就 不 能 使 能 DEP。 因 此 DEP 机 制 是 一 柄 双 刃 剑 , 不 具有 ”" 放 之 四 海 而 绷 
准 ” 的 普 适 性 。 最 后 ,操作 系统 也 预 留 了 使 能 DEP 的 接口 (可 使 用 NtSetInformationProcess 卫 
数 中 的 参数 ExecuteFlags 指定 ) ,这 就 为 恶 意 进 程 关 闭 DEP 提供 了 突破 机 会 。 例 如 在 
KPROCESS 结构 中 , 当 DEP 被 启用 时 ,KPROCESS. ExecuteDisable 被 置 位 ; 当 DEP 被 禁用 时 ， 
KPROCESS. ExecuteEnable 被 置 位 。 

男 一 方面 ,为 了 应 对 DEP 机 制 给 窗 盖 返回 地 址 带 来 的 不 利 影响 ,ret2libc ,ret2plt 和 ROP 
攻击 等 多 种 多 样 的 攻击 技术 也 被 担 了 出 来 。 其 中 ROP 就 是 面 回 返回 语句 的 编程 方法 
( Return-Oriented Prosgramming) , 它 便 用 libc 代码 段 里 面 的 ret/call/jmp/ 等 指令 段 一 个 接 一 个 
地 跳 转 以 执行 某 项 功能 ,从 而 避 开 DEP 等 保护 措施 。 


14.3 ASLR 机 制 


ASLR( Address Space Layout Randomization ,地 址 空间 布局 随机 化 ) 机 制 允 许 程序 加 载 的 
时 候 不 再 按照 PE 文件 头 中 建议 的 固定 基 址 进行 映射 (如 图 14 -7 所 示 ) ,而 改 为 按照 随机 地 
址 加 和 载 和 映射 。 从 Windows Vista 版 本 后 ASLR 机 制 真 正成 赖 起 来 。 ASLR 机 制 需 要 操作 系 
统 和 进程 模块 日 身 的 双重 文 持 。 

PE 文件 可 选 头 结构 的 DllCharacteristics 属性 可 以 决定 这 个 EXE 文件 是 否 使 用 DEP/ 
ASLR 技术 ,定义 如 下 : 

> IMAGE_DLLCHARACTERISTICS_DYNAMIC_BASE .0x0040, ASLR 机 制 使 能 。 

> IMAGE_DLLCHARACTERISTICS_NX_COMPAT.0x0100 ,DEP 机 制 使 能 。 

如 图 14 -8 所 示 ,Windows 7 系统 下 的 kernel32 模块 中 DllCharacteristics 的 可 选 属性 中 ， 
IMAGE_DLLCHARACTERISTICS_NX_COMPAT 的 值 为 0x0100 ,表示 支持 DEP 机 制 ;IMAGE _ 
DLLCHARACTERISTICS_DYNAMIC_BASE 的 值 为 0x0040 ,表示 文 持 ASLR 机 制 , 两 者 的 组 合 
键 是 0x0140。 因 此 kernel32 模块 对 DEP 和 ASLR 机 制 都 是 支持 的 。 
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Member 


Magic 


MajorLinkerVersion 


MinorLinkerVersion 


SizeOfCode 
SizeOfInitiallizedData 
SizeOfUninitializedData 
AddressOfEntryPoint 
BaseOfCode 


ImageBase 0000000078D20000 


图 14-7 PE 文件 头 中 建议 的 加 载 基 址 ( ImageBase) 


‘DllCharacteristics |0000013F 


SizeDfSstackReserve 00000140 000000000004! 
SizeD0fStackL ommit 00000148 000000000000 


Sizre0fHeapReserve 00000150 000000000010' 


SIze0tHeapComm1lt 00000158 000000000000 


LoaderFlags D00000180 00000000 


Number0tRvaArds1lzes 00000164 00000010 


图 14 -8 ” kernel32. dll 的 DIICharacteristics 属性 中 对 于 DEP/ASLR 机 制 的 标志 


ASLR 机 制 分 为 以 下 几 个 部 分 : 
> 映像 随机 化 :PE 文件 映射 到 内 存 中 时 其 加 载 的 虚拟 基 址 是 随机 的 ,每 次 系统 重启 后 
加 载 PE 文件 都 是 不 一 样 的 地 址 (注意 ,是 系统 重启 而 不 是 进程 重启 ) ,这 个 随机 加 载 
地 址 是 在 操作 系统 启动 时 确定 的 ,Windows 支持 以 配置 的 方式 选择 是 否 开 启 映 像 随 
机 化 。 不 过 映像 随机 化 做 得 不 是 很 彻底 ,以 32 位 虚拟 地 址 为 例 ,其 改变 的 只 是 映像 
基 址 的 高 16 位 , 低 16 位 是 不 变 的 ,这 就 为 枚 举 式 猿 测 映像 加 载 基 址 提供 了 可 能 。 
> 堆栈 随机 化 :进程 每 次 启动 时 堆栈 的 基 址 都 是 随机 的 ,如 图 14 -9 所 示 。 堆 栈 的 地 址 
是 在 进程 启动 而 非 系 统 启 动 的 时 候 确 定 的 ,因此 每 次 重启 进程 时 堆栈 的 地 址 都 不 一 
样 。 堆 栈 地 址 不 一 样 ,堆栈 中 的 临时 变量 .参数 和 返回 地 址 等 内 容 的 位 置 也 就 不 一 样 
了 ,这 就 为 跳板 植 人 刘 来 了 门槛 。 
> 进程 /线程 环境 块 随机 化 :PEB 和 首 个 TEB 的 基 址 不 再 被 固定 为 0x7FFDF000 和 
0x7FFDE000 ,进程 /线程 每 次 启动 时 PEB 和 TEB 也 具有 随机 性 ,这 种 随机 化 从 
Windows XP 的 SP2 版 本 起 就 已 经 支持 了 。 
为 了 破解 ASLR 机 制 ,攻击 技术 也 发 生 了 很 大 的 改变 , 堆 喷 射 (Heap Spray ) 就 是 专门 针 
对 ASLR 的 一 种 攻击 技术 ,浏览 器 的 汶 出 攻击 正 是 利用 了 堆 喷 射 。 但 Heap Spray 只 是 一 种 
辅助 技术 ,需要 结合 其 他 的 栈 溢出 或 堆 溢 出 等 技术 才能 发 挥 作用 。 其 原理 是 在 ShellCode 的 
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6018FFC4|| FFFFFFFF | SEH 链 的 末端 
9618FFC8|| 773C4DCD | SE 处 理 程序 
O18FFCCE | | 0051358E 
B018FFDO|| 99008800 


寄存 中 (FPU) | | B818FFD#|| B818FFEC| | 

EAX 74B5343B Kernel32-BaseThreadInitThunk | 9918FFD8S| -773897D5| 从 返回 mtdl11.773897DB 上 自 ntdll.773897D5 
Ecx 99g99998 BO18FFDC| O8411DDF|2ZXConfig.<HoduleEntryPoint> 

EDX G6411DDF ZXConfig.<ModuleEntryPoint> GOS8FFEQ! 7EFDE S00 

EBX 7EFDEB9B 8018FFE4| G606686866 

ESP QB18FF8C hSCII “MyMt" OSPFES | VOODOO 

EBP O018FF94 BOISFFECG| 6@@0060600 

ESI QA000000 B08FFFOI @00060866 

FEDT 996999908 B618FFFA| Beu11DDF| ZXConfig-<ModuleEntryPointy》 


. _ BOI8FFF8| 7EFDE@808 
8969411DDF ZXConfig.<MHoduleEntryPoint> 6018FFFC| 699666998609| 堆栈 基 址 及 其 内 容 


恒 14-9 某 用 户 态 进程 的 堆栈 指针 和 堆栈 基 址 
前 面 加 上 大 量 的 slide code( 滑板 指令 ) ,组 成 一 个 注入 代码 段 。 然 后 同系 统 申请 大 量 内 存 ， 
并 且 反 复 用 注入 代码 段 来 填充 。 这 样 就 使 得 进程 的 地 址 空间 被 大 量 的 注入 代码 所 占据 ,再 
结合 其 他 的 漏洞 攻击 技术 控制 程序 流 ,使 得 程序 执行 到 堆 上 ,最 终 导致 ShellCode 的 执行 。 


EI 


一 


14.4 _ Security Cookie 机 制 


Security Cookie( 也 称 为 GS 机 制 ) 是 Windows 专门 针对 栈 洲 出 提出 的 一 种 安全 机 制 ,该 
机 制 需 要 得 到 编译 右 的 文 持 才能 正和 沼 使 用 。 微 软 从 VS( Visual Studio) 2003 版 本 开始 文 持 
该 机 制 (GS 校 验 选项 ) ,局 用 了 GS 校 验 选项 的 也 数 前 后 会 深 加 额 外 的 处 理 代 人 码 , 用 于 生成 伪 
随机 数 的 Cookie 并 放 入 当前 PE 模块 的 . data 区 段 , 当 本 地 变量 初始 化 时 首先 会 回 栈 中 插 人 
这 个 Cookie ,如 图 14 - 10 所 示 。 因 此 ,Security Cookie 是 通过 向 进程 的 . data 区 段 写 人 Cookie 
的 办 法 来 存储 原 有 栈 帆 中 二 进 制 代码 的 可 信 性 的 ,在 图 数 返回 的 时 候 通过 验证 这 个 可 信人 性 
来 判断 是 否 道 受 了 洪 出 攻击 。 


低 址 


可 能 会 发 生 溢 出 的 字符 
串 / 宇 符 数 组 型 变量 


淹没 方向 
堆栈 生 
长 方向 int 型 局 部 变量 


返回 地 址 


图 14 -10 Security Cookie 机 制 逻辑 视图 


应 用 软件 开发 协议 栈 2 


采用 Security Cookie 机 制 验 证 的 具体 做 法 如 下 所 示 : 

(1) 程序 局 动 时 ,首先 读 取 . data 区 段 的 第 一 个 DWORD 作为 种 子 , 然 后 与 各 种 元 素 ( 例 
如 时 间 戳 .进程 DD 线程 ID 每) 进行 异 或 (XOR ) 加 密 。 

(2) 将 上 述 加 密 后 的 种 子 再 次 写 人 . data 区 段 的 第 一 个 DWORD 处 ,替换 原来 的 第 一 个 
DWORD 值 。 

(3) 函数 调用 执行 前 将 上 述 加 密 后 的 种 子 取出 ,并 与 当前 ESP 寄存 希 中 的 值 进 行 异 或 
计算 ,得 到 的 结果 压 人 栈 中 EBP 的 前 面 ( 栈 生 长 方向 的 低 址 部 分 ) ,我 们 称 这 个 值 为 Security 
Cookle。 

(4) 当 函 数 执行 返回 时 ,车 在 当前 的 栈 帧 中 中 遇 栈 溢出 , 则 必然 将 栈 帧 中 的 返回 地 址 济 
没 (否则 无 法 通过 返回 地 址 接管 线程 控制 权 ) ,也 必然 淹没 到 步 又 (3 ) 中 被 压 人 EBP 前 面 的 
Security Cookie。 因 此 返回 之 前 把 Security Cookie 取出 并 与 ESP 寄存 天 中 的 值 进 行 异 或 计算 
后 再 调用 security_check_cookie 因数 进行 检查 (与 . data 区 段 里 的 种 子 进行 比较 ) 。 如 果 两 者 
一 臻 ,证明 没有 被 本 溢出 覆盖 , 则 返回 原 函 数 继续 执行 ;如 果 校 验 失败 ,证 明 已 被 覆盖 修改 ， 
此 时 应 将 程序 终止 。 整 个 过 程 参 见 图 14 - 11 。 


data 区 拓 


Security Cookie 
( 副 | 本 ) 


Securlty Coolue 


(随机 数 被 修改 ) 


.text 区 段 


图 14 一 11 Security Cookie 机 制 的 验证 过 程 


前 文 说 过 , 栈 湾 出 机 制 志 效 的 前 提 是 栈 帧 淹没 到 返回 地 址 ,也 就 是 将 栈 帧 中 的 返回 地 址 
玲 换 为 其 他 恶意 模块 的 入 口 地 址 从 而 实现 跳 转 。 但 在 一 些 特殊 情况 下 淹没 的 深度 比较 浅 ， 
不 会 淹没 到 返回 地 址 处 ,甚至 不 会 淹没 到 栈 帆 中 的 Security Cookie 处 (例如 用 于 洲 出 的 字符 
串 的 高 址 方向 还 有 其 他 变量 ) ,不 淹没 Security Cookie 的 情况 下 安全 校 验 机 制 不 会 奏效 ,从 而 
造成 了 漏洞 间 陀 。 

为 了 应 对 这 种 漏洞 间 际 ,从 VS 2005 版 本 开始 ,编译 硕 推 出 了 变量 重 排 技术 , 即 编 详 时 
根据 局 部 变量 的 类 型 对 变量 在 栈 帧 中 的 位 置 进 行 调整 ,将 字符 串 变 量 移动 到 栈 帧 的 高 址 区 
域 ( 紧邻 Security Cookie 的 位 置 ) ,如 图 14 一 12 所 示 , 在 发 生 栈 洲 出 时 会 增 大 Security Cookie 
被 覆盖 的 几率 。 当 然 ,如 果 用 于 溢出 的 字符 串 的 高 址 方向 还 有 其 他 的 字符 串 存 在 , 则 仍然 有 
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可 能 由 于 淹没 深度 较 浅 而 没有 淹没 到 Security Cookie ,如 图 14 -12 中 最 右 侧 。 
重 排 前 重 排 后 


重 排 后 的 特例 


用 于 溢出 的 
字符 串 型 变量 


double 型 局 部 变量 


int 型 局 事变 革 
Security Cookie Security Cookie 淹没 方向 Security Cookie 


返回 地 址 返回 地 址 返回 地 址 
高 址 六 


图 14 -12 ”变量 重 排 及 潜在 漏洞 间 际 示意 图 


淹没 方 问 


14.5 SafeSEH 机 制 


通过 栈 洪 出 的 方式 淹没 SEH 处 理 印 数 是 堆栈 洲 出 漏洞 攻击 的 经 典 方式 ,因此 对 于 SEH 处 理 
函数 地 址 的 保护 和 校 验 就 显得 尤为 重要 。SafeSEH 就 是 一 种 对 SEH 处 理 函 数 进行 校 验 的 机 制 ,其 
> 编译 胡 在 编译 程序 时 将 所 有 异常 处 理 函 数 的 入 口 地 址 加 密 写 和 信安 全 SEH 表 , 该 表 存 
放 在 进程 的 某 个 区 段 中 。 
> 线程 在 调用 异常 处 理 例 程 时 对 要 调用 的 异常 处 理 函 数 与 安全 SEH 表 中 的 图 数 指针 进 
行 比较 和 匹配 ,如 果 未 匹配 成 功 则 证 明 SEH 处 理 限 数 已 被 窗 盖 。 

SafeSEH 机 制 的 工作 流程 如 图 14 一 13 所 示 。 

SafeSEH 机 制 需 要 操作 系统 和 编译 带 共 同 支 持 才 能 真正 起 作用 ,VS 2003 及 更 高 版 本 的 
编译 需 默 认 启 用 该 机 制 (通过 /SafeSEH 链接 选项 ) 。 当 进行 异常 处 理 时 ,首先 从 异常 处 理 的 
公共 分 发 图 数 RtlDispatchkxception 开始 执行 启用 了 SafeSEH 机 制 的 分 发 图 数 进 行 以 下 检 
查 判 断 . 

> 右 异 稍 处 理 链 不 在 当前 线程 的 栈 中 , 则 终止 异 营 处 理 (SEH 链 都 是 存放 在 栈 中 的 ) 。 

> 石 异常 处 理 例 程 的 指针 指 癌 当前 栈 中 某 个 地 址 ,证 明 该 地 址 为 ShellCode, 则 终止 异常 

处 理 。 

上 述 两 项 检查 完成 后 再 调用 RtlIsValidHandler 方法 进行 异常 处 理 的 有 效 性 检查 ,包括 处 
理 例 程 是 否 存 在 于 当前 加 载 模块 的 内 容 地 址 空间 中 、 处 理 例 程 是 否 存 在 于 不 可 执行 的 内 存 
页 中 等 ,最终 RtllsValidHandler 只 允许 在 以 下 几 种 情况 下 执行 异常 处 理 例 程 ; 

> 异常 处 理 限 数 指针 位 于 加 载 模块 内 存 范 围 外 ,日 DEP 未 局 用 。 


CJ 应 用 软件 开发 协议 栈 CO 


异种 分 发 到 SEH 


RaiseException 


| 


”SEH 链 是 耕 在 栈 上 ? 


nu 


RaiseException 


RtllsValidHandler() ~ 无 效 


验证 异常 处 理 
男 数 有 效 必 


图 14-13 SafeSEH 机 制 的 工作 流程 
> 异 背 处 理 国 数 指针 位 于 加 载 模块 内 存 范围 内 , 且 相 应 模块 未 局 用 SafeSEH ,其 状态 也 
不 是 纯 了 (包含 开标 志 的 . NET 中 间 语 言 程序 ,IL 即 中 间 语 言 , Intermediate Language ) 
> 异 和 党 处 理 函 数 指针 位 于 加 载 模 块 内 存 范 围 内 , 且 相 应 模块 局 用 了 SafeSEH 机 制 , 国 数 
地 址 也 在 安全 SEH 表 中 ,如 图 14 一 14 所 示 。 


安全 SEH 表 
保存 授 历 校 验 


堆栈 生 Handlerl 指 针 
长 方 一 


Em 
ul 


Next 


图 14 一 14 SafeSEH 机 制 的 基本 原理 
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14.6 SEHOP 机 制 


SEHOP( Structured Exception Handler Overwrite Protection ,结构 化 异常 处 理 窗 盖 保 护 ) 是 
微软 在 Windows Vista 及 以 上 版 本 中 采取 的 一 种 较为 严 可 的 SEH 保护 机 制 ,用 于 保护 SEH 
不 被 栈 洲 出 覆 新 。 其 基本 原理 是 检查 SEH 链 的 完整 性 , 即 检查 链 中 最 后 一 个 异 第 处 理 ( 通 
第 是 系统 默认 的 异 肖 处 理 函 数 ) 是 否 为 系统 默认 “ 忽 奔 ”的 那个 异常 处 理 函数 ,如 图 14 一 15 
所 示 。 这 个 原理 基于 下 列 依据 : 

> 被 渡 没 的 SEH 结构 ,其 Next 指针 也 会 钻 窗 盖 , 从 而 使 当前 市 点 失去 癌 下 寻找 的 线索 。 

> SEH 链 中 最 后 一 个 异常 处 理 节 点 的 Handler 指向 的 是 系统 默认 的 异常 处 理 阴 数 ( 即 

ntdll. dll 中 的 UnhandledExcetionFilter ) ,该 函数 的 地 址 是 固定 的 。 


合法 SEH 链 非法 SEH 链 


| app! except handler Ox7icl408ac 


| k32 ! except handler 


ntdlliFmalExceptionHandler 不 能 追溯 到 初始 SEHic 录 


N=Next 指 针 ，H= 异 常 处 理 图 数 指针 
图 14 -1 SEHOP 机 制 的 基本 原理 


SEHOP 机 制 的 实现 也 是 在 异常 处 理 公共 哺 数 RHDispatehException 中 。 不 过 SEHOP 机 
制 要 求 对 于 SEH 做 出 一 些 限制 条 件 ,包括 : 

> SEH 结构 都 必须 在 栈 上 。 

> 所 有 的 SEH 结构 都 必须 是 4 字 节 对 齐 的 (32 位 下 ) 。 

> SEH 结构 中 的 Handler( 处 理 困 数 地 址 ) 必须 不 在 栈 上 。 

> 最 后 一 个 SEH 结构 的 Handler 必须 是 ntdll! FinalkxceptionHandler 这 个 阴 数 。 

> 最 后 一 个 SEH 结构 的 Next SEH 指针 必须 为 特定 值 0xXFFFFFFFF (最 后 一 个 节点 的 默 
认 值 )。 


14.7 Patch Guard 机 制 


Patch Guard( 内 核 补丁 保护 程序 ,简称 KPP) 是 Windows Vista 及 以 上 版 本 采用 的 一 种 内 
核 保 护 机 制 ,应 用 于 64 位 系统 。Patch Guard 能 够 有 效 防 止 内 核 模 式 驱动 对 于 Windows 内 核 
内 容 的 改动 或 替换 ,采用 Patch Guard 机 制 后 第 三 方 软件 将 无 法 再 给 Windows Vista 及 以 上 版 
本 系统 的 内 核 添 加 任何 补丁 (例如 SSDT HOOK IDT HOOK 等 均 无 法 实施 ) 。 


22/ 


一 一 


| LN 


Patch Guard 机 制 的 工作 原理 是 定期 检查 内 存 中 受 保 护 的 内 核 系统 结构 是 否 被 修改 ,一 
日 发 现 不 一 至 的 地 方 就 以 BSOD (死亡 蓝屏 ) 的 方式 进行 阻 断 ,是 Windows 系统 中 防御 
Rootkit 的 终极 手段 ,其 初始 化 及 工作 过 程 如 图 14 一 16 所 示 。 

Patch Guard 保护 的 内 核 组 件 包括 : 

> 系统 模块 ,包括 NTOS .NDIS 和 HAL ; 

> 系统 服务 摘 述 伯 表 (SSDT); 

> 全 局 描述 符 表 ( GDT); 

> 中 断 描述 符 表 ( IDT) 。 


除法 异常 处 理 DPC 例 程 回调 直接 回调 
初始 化 完整 性 检查 错误 报告 
KiSystemsStartup DPC 例 程 栈 中 弹出 清理 
es es 
ExplinitializeExecutive 计 境 解码 喇 
InitBootProcessor a 
PsinitSystem 系统 完整 性 检查 
Phase1lnitialization DPC 寄存 部 


语 境 编码 器 


Phase1lnitializationDiscard 
KelnitSystem 


KilnitMachineDependent nt!lzzz_AsmCodeRange_End 


图 14 一 16 ” Patch Guard 初始 化 及 操作 过 程 视 匿 
Patch Guard 是 以 内 核 驱 动 程序 的 形态 存在 的 , 且 为 了 使 Patch Guard 机 制 本 身 免 受 攻 
击 ? Windows 采用 了 许多 黑客 的 做 法 来 增 加 定 位 和 分 析 Patch Guard 的 难度 ? 例如 命名 模糊 得 
令 人 挤 不 看 头脑 的 初始 化 汝 数 ( KiDivide6432 .zzz_AsmCodeRange_End 等 ) ,内 部 也 使 用 了 很 
多 错误 来 引导 代码 逆向 者 走 人 歧途 。 男 外 ,如 果 系 统 处 于 调试 状态 ,Patch Guard 机 制 会 被 系 
统 禁 用 ,以 防 对 Patch Guard 机 制 的 恶意 调试 和 代码 逆向 。 


Dp 


内 核 符号 


14.8 Safe Unlinking 机 制 


Safe Unlinking 是 一 种 防止 堆 次 出 的 保护 机 制 ,也 是 从 Windows XP 系统 就 开始 文 持 的 安全 
机 制 。 在 系统 中 , 堆 是 由 堆 分 配 顺 采用 双 回 链表 的 方式 维护 的 ,例如 图 14-17 的 块 首 结构 中 含 


ps 
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有 的 前 向 指针 和 后 回 指针 。 当 扒 分 配 需 从 空闲 链表 中 移 除 (Unlink ) 堆 块 时 ,Safe Unlinking 机 
制 会 验证 Flink 和 Blink 两 个 指针 (前 向 指针 和 后 向 指针 ) 的 正确 性 , 即 是 否 满足 Entry 一 Flink 一 
Blink == Entry 一 Blink 一 Flink = = Entry, 以 防止 攻击 者 使 Flink 或 Blink 指 问 任 意 内 存 地 址 , 进 
而 消除 在 执行 Unlink 操作 时 写 入 任意 4 字 节 数据 的 机 会 。 


Se 前 一 堆 块 的 天 小 | 标志 位 


下 一 堆 块 的 指针 前 一 堆 块 的 指针 


0 | 2 3 4 5 6 8 
司 14-17 Windows 堆 块 块 首 结构 


14.9 CFG 机 制 


CFG( Control Flow Guard ,控制 流 保护 ) 是 Windows 8.1 和 Windows 10 系统 才 支 持 的 机 
制 ,用 于 保护 在 汇编 层 的 直接 调用 。CFG 机 制 通过 在 间接 跳 转 代码 前 插 人 校 验 代码 以 检查 
目标 地 址 的 有 效 性 ,进而 阻止 执行 指令 跳 苇 到 预期 之 外 的 地 点 ,及 时 有 效 地 进行 异 第 处 理 ， 
避免 引发 相关 的 安全 问题 。 徐 单 地 说 ,就 是 在 程序 间接 跳 转 之 前 判断 这 个 将 要 跳 转 的 地 址 
是 否 合法 。 当 然 ,CFG 机 制 的 实现 有 赖 于 编译 融 .操作 系统 和 用 户 态 依赖 库 等 的 共同 协作 。 

CFG 机 制 关 注 和 缓解 的 是 间接 调 用 的 不 可 徘 目 标 地 址 问题 。 不 可 徘 目标 地 址 有 个 明显 
特征 , 即 大 部 分 情况 下 目标 不 是 一 个 有 效 的 函数 起 始 地 址 ,因此 CFG 机 制 是 基于 这 样 一 个 
基本 条 件 : 间 接 调 用 目标 地 址 必须 是 一 个 可 徘 的 函数 起 始 地 址 。 

如 图 14 一 18 所 示 , 左 边 是 未 启用 CFG 机 制 的 汇编 代码 ,右边 是 启用 了 CFG 机 制 的 汇编 代 
码 。 尼 用 CFG 机 制 时 ,在 间接 调用 前 ,目标 地 址 被 传 给 了 _guard_check_icall 这 个 公共 函数 ,该 
图 数 实 现 了 CFG 机 制 ;而 在 没有 CFG 机 制 支持 的 Windows 系统 中 ，guard_check_icall 图 数 不 
做 任何 事 。_guard_check_icall 函数 实际 指向 ntdll. dll 中 的 LdrpValidateUserCallTarget ,后 者 会 
实质 判断 传人 的 目标 地 址 是 否 是 一 个 合法 的 图 数 地 址 。 


mou eCx, 3E8h 
Irep stosd 


@ guard check icall@h ; guard check icall(x) 
es1l 


14-18 未 启用 CFG 机 制 与 启用 CFG 机 制 的 汇编 代码 对 比 
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14. 10 ”Secure Boot 机 制 


从 Windows 8 开始 操作 系统 的 局 动 方式 发 生 了 很 大 的 变化 , 即 从 原先 Windows 7 的 
Legacy 启动 方式 (传统 启动 方式 ) 转 变 为 Secure Boot 启动 方式 ,如 图 14 一 19 所 示 。 已 经 预 装 
了 Windows 8 系统 的 计算 机 要 退 装 Windows 7 也 必须 修改 UEFIT 以 取消 Secure Boot , 可 网 
Secure Boot 机 制 已 经 硬化 到 计算 机 BIOS 固件 之 中 了 。 


Win7 尼 动 Win8 局 动 


计算 机 加 电 计算 机 加 电 


UEFI BIOS 


Windows 
OS Loader 


Kernel 


Windows 
OS Loader 
Kernel _ 
Windows 
Logon 


14 一 19 Windows 7 与 Windows 8 系统 启动 过 程 的 对 比 
Secure Boot 是 UEFTI 的 一 个 子规 范 , 也 就 是 UEFI 规范 的 一 个 子 集 , 其 目的 是 通过 非 对 称 
加 解密 的 方式 防止 恶意 软件 侵入 以 加 强 系 统 日 号 的 安全 性 ,其 核心 原理 契合 了 可 信 计 算 度 
量 的 思想 。 目 前 微软 已 经 要 求 主板 厂商 在 BIOS 中 内 置 Windows 8 的 公 铀 。 
Secure Boot 机 制 的 技术 原理 是 这 样 的 : 
> UEFI 规范 规定 主板 出 三 的 时 候 可 以 内 置 一 些 可 徘 的 公 钥 。 
> 任何 想 要 在 当前 主板 上 加 载 的 操作 系统 和 便 件 驱动 必须 通过 上 述 可 乱 公 钥 的 认证 ， 
否则 拒绝 加 载 , 即 操作 系统 和 硬件 驱动 必须 采用 公 钥 对 应 的 私 钥 签名 ,从 而 使 恶意 软 
件 无 法 通过 验证 也 就 不 可 能 感染 系统 的 Boot 阶段 。 
因此 ,Secure Boot 机 制 就 是 对 操作 系统 和 人 硬件 驱动 的 签名 验 签 过 程 ,操作 系统 和 硬件 驱 
动 相 当 于 签名 过 程 中 的 发 送 病 ,而 Secure Boot 则 是 验 签 过 程 中 的 接收 问 , 如 图 14 -20 所 示 。 
这 也 是 驱动 签名 强制 ( Driver Signature Enforcement, DSE ) 机 制 的 由 来 。 


Windows 
Logon 
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用 私 铀 
川 客 


11011000010 一 


签名 后 的 报 文 


摘要 ， 


用 发 送 广 
公 钥 解 密 


? 
11011000010 = 11011000010 
D D 


图 14 -20 ”签名 与 验 签 过 程 ( 图 片 来 自 CSDN) 


本 章 小 结 


本 章 介绍 了 Windows 的 内 存 安全 机 制 。 

Windows 攻击 的 很 大 一 部 分 为 内 存 攻击 , 即 由 于 软件 /硬件 漏洞 而 造成 的 缓冲 区 内 存 溢 
出 整数 溢出 等 ,因此 杜绝 内 存 中 的 各 种 漏洞 是 当务之急 。 在 本 章 中 按照 不 同 的 维度 分 别 介 
绍 了 数据 执行 保护 ,加 载 地 址 随机 、Security Cookie 等 机 制 ,对 应 解决 了 内 存 页 执行 进程 模 
块 默认 加 载 地 址 ,堆栈 溢出 保护 和 校 验 等 问题 。 


el 


第 (5 革 “可 信 计 算 技 术 


可 信 计 算是 一 种 历史 比较 悠久 的 技术 , 它 以 加 解密 相关 技术 为 基础 ,并 基于 信任 链 的 思 
想 对 计算 机 系统 中 的 软 便 件 进行 可 信和 性 度量 验证 。 

中 国 的 可 信 计 算 发 源 于 1992 年 立项 的 可 信 计 算 综 合 安 全 防护 系统 一 一 智能 安全 卡 ,并 
逐步 形成 了 日 主 的 安全 可 信 体 系 ,近期 推出 的 等 保 2.0 标准 (网 络 安全 等 级 保护 制度 2.0 国 
家 标准 ) 更 是 下 接 将 基于 可 信 计 算 技术 的 可 信 验 证 作为 了 三 大 特点 之 一 。 而 从 拉 术 发 展 的 
代 差 来 讲 , 可 信 计 算 技 术 可 以 分 为 三 代 : 

> 可 信 计 算 1.0: 主 要 为 了 解决 主机 系统 可 徘 性 问题 , 面 癌 的 是 计算 机 系统 中 的 各 个 部 

件 ,技术 手段 也 是 比较 原始 的 基于 容错 算法 的 故障 诊 查 方式 。 
> 可 信 计 算 2.0: 主 要 为 了 解决 节点 安全 性 问题 , 面 回 的 是 PC 单机 ,技术 手段 是 基于 
TPM + TSS 的 被 动 度 量 方式 。 
> 可 信 计 算 3.0: 这 是 目前 最 为 先进 的 技术 方式 ,主要 为 了 解决 网 络 安全 性 问题 ,采用 公 
私 钥 主动 免疫 撤 术 对 终 闪 服务 天 存储 系统 和 网 络 进行 可 徘 性 验证 ,其 主要 技术 特 
点 是 主动 人 免疫 ,动态 度量 、 实 时 感知 。 可 信 计 算 3.0 是 由 中 国 自 和 完 提出 的 具有 极 大 创 
新 性 的 安全 技术 ,利用 可 信 计 算 3.0 技术 可 以 有 区 排除 "熔断 ”“ 幽 灵 ”等 CPU 固件 
湄 洞 。 
下 草 节 将 按照 图 15 -1 所 示 的 提纲 对 可 信 计 算 技术 进行 梳理 。 
_ 加 让 技术 : 对 称 、 非 对 称 、 混 全 
加 解密 技术 9/ 散 列 算法 和 数字 签名 
| 公 铀 基础 设施 和 数字 证 书 
可 信 计 算 中 名 词 的 解释 
| 可 信 计 算 系统 的 组 成 
可 信 计算 的 主要 技术 手段 : 度量 和 验证 -> 可 售 计算 信任 甸 
| 可 信 计 算 度 量 的 分 类 : 静态 度量 和 动态 度量 
TPM 的 而 件 二 机 及 功能 


| | TPM 对 于 密码 算法 的 管理 机 制 
| 可 信 平 台 模块 TPM 外 一 一 一 一 一 一 一 一 
| ”TPM 对 于 密 钥 的 管理 机 制 


| TPM 对 于 数字 证 书 的 管理 机 制 
| TSS 的 架构 和 组 成 

可 信和 软件 栈 (T5S) 6 一 一 一 一 一 
| E TSS 功 能 模块 的 组 成 

基于 可 信 计 算 的 安全 启动 技术 


可 信 计 算 的 应 用 @/ 
\ TrustZone 技 术 


图 1S$-1 本 章 提纲 


可 凡 i: 韶 PW 


i 
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15.1 加 解密 技术 


1. 加 窗 技 术 
在 介绍 可 信 计 算 技术 之 前 ,我们 必须 首先 介绍 加 解密 技术 ,这 是 因为 加 解密 技术 是 可 信 
计算 的 基础 技术 。 可 按照 加 解密 密 钥 是 否 一 致 将 加 密 技 术 分 为 以 下 几 类 : 
> 对 称 加 密 技 术 : 即 采用 单 钥 的 加 密 方 法, 加密 与 解密 使 用 同一 个 密 钥 ,如 图 15 -2 所 
示 。 因 为 不 分 公 钥 与 私 钥 ,因此 被 称 为 对 称 加 密 技 术 。 


对 称 密 钥 (A&B 共 享 ) 


Alice(A) Bob(B) 


15 -2 对称 加 密 技术 在 数据 传输 中 的 应 用 场景 (图片 来 自 CSDN) 
> 非 对 称 加 密 技 术 : 公 钥 与 私 钥 是 一 对 不 同 的 密 钥 ,如果 用 公 钥 对 数据 进行 加 密 , 则 只 
有 对 应 的 私 钥 才能 解密 ,如 图 15 -3 所 示 ; 如 条 用 私 铀 加 密 数 据 , 则 使 用 公 钥 才能 和 角 
密 , 如 图 15 一 4 所 示 。 因 为 加 密 和 解密 密 角 不同, 所 以 这 种 方法 叫 作 非 对 称 加 密 技 
术 , 可 用 于 和 号 份 认 证 等 场景 ,如 图 15 一 5 所 示 。 


B 的 公 负 B 的 私 铀 
| 太 明文 
di = bp \ 


pa DD 


Ciphertext 


明文 


Alice(A) 


图 15 -3 公 和 钥 加 密 私 钥 解 密 的 数据 加 密 场 景 ( 图片 来 自 CSDN ) 


A 的 私 铀 A 的 会 铀 
明文 > 明文 
d— 一 必 


Alice(A) \ Ciphertext 


15 一 4 私 钥 加 密 . 公 钥 解密 的 数据 加 密 场 景 (图 片 来 自 CSDN) 
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Alice(A) Bob(B) 
sa 的 秘 钵 B 的 公 铀 B 的 私 铀 aA 的 公 铀 
4 一 和- = 
机 塞 性 


真实 性 、 不 可 抵 束 性 


1S-S 身份 验证 的 密 文 在 数据 传输 过 程 中 的 加 解密 ( 图片 来 自 CSDN) 


> 混合 加 密 拷 术 : 用 非 对 称 算法 交换 对 称 密 钥 , 用 对 称 密 钥 加 密 数 据 , 这 种 方法 称 为 混 
全 加密 技 术 , 如 图 15 -6 所 示 。 混 合 加 密 技 术 不 能 实现 号 份 验证 。 


Sy 


SN 

4e= 
B 的 公 铀 B 的 私 铀 

15 -6 混合 加 密 技术 在 数据 传输 中 的 应 用 场景 ( 图 片 来 自 CSDN) 


对 于 对 称 加 密 技 术 , 稼 见 的 加 密 算 法 有 :DES( 数 据 加 密 标 准 ) 3DES IDEA( 国际 数据 加 
密 算法 ) .Blowfish .RC4 .RC5 .Rijndael .AES( 高 级 加 密 标准 ) 等 。 

对 于 非 对 称 加 密 技 术 , 公 钥 稼 用 于 效 据 加 密 ( 用 公 钥 加 密 ) 或 签名 验证 (用 公 钥 解密 ) ， 
私 钥 稼 用 于 数据 解密 (发 送 痊 用 接收 闪 的 会 钥 加 密 ) 或 数字 签名 (用 有 目 己 的 私 钥 加 密 ) ,常见 
的 加 密 算 法 有 Diffie-Hellman RSA .EI Gamal .椭圆 曲线 .DSA .背包 .DSS 等 。 

2. 散 列 算法 

所 谓 散 列 ( Hash ) 算法 ,也 被 称 为 哈 希 算法 ,输入 任何 长 度 的 消息 ,通过 一 个 单 癌 的 运算 
产生 定 长 的 输出 ,这 个 输出 的 值 被 称 为 散 列 值 ,并 且 散 列 算法 是 不 可 逆 的 。 散 列 算 法 的 种 类 
包括 MD2 .MD4 .MD5 .HAVAL SHA Tiger、RIPEMD-160 等 。 散 列 算法 有 和 多重 应 用 ,例如 通过 
摘要 的 方式 验证 数据 是 否 被 算 改 ,其 步 又 如 下 : 

(1) 报 文 发 送 闪 使 用 散 列 算法 对 即将 发 送 的 报 文 计算 消息 摘要 (Abstractl ) 。 

(2) 发 送 闹 将 Abstractl 附 在 发 送 的 报 文 明文 之 后 并 发 送 给 接收 病 。 

(3) 接收 病 接 收 到 报 文 后 使 用 相同 的 散 列 算法 计算 出 报 文 明文 的 消息 摘要 
( Abstract2 ) 。 

(4) 将 Abstractl 与 Abstract2 相 比 较 , 如 果 相 同 则 表示 消息 报 文 未 被 算 改 。 


Alice(A) le 
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当然 ,上 述 过 程 不 能 实现 真正 的 完整 性 保证 ,因为 中 间 人 可 以 在 截获 消息 报 文 后 按照 约 
定 的 散 列 算法 重新 计算 消息 摘要 并 附 在 报 文 之 后 ,这 样 就 可 以 蒙蔽 接收 端 。 针 对 这 种 漏洞 
可 以 采用 数字 签名 技术 来 解决 。 

所 谓 数 字 签 名 ,就 是 用 目 己 的 私 钥 对 原始 数据 的 消息 摘要 进行 加 密 后 得 到 的 数据 ,也 就 
是 先 散 列 再 加 密 , 消 息 摘 要 是 作为 加 密 端 输入 参数 的 ,如 图 15 -7 所 示 。 


1、 没 有 算 改 Bob(B) 
2、 是 Alice 发 送 的 


Alice(A) 


本 
本 


A 的 会 铀 


数字 签名 。 朋 有 


15 -7 数字 签名 的 生成 和 解析 过 程 (图片 来 自 CSDN ) 


由 于 对 消息 摘要 做 了 私 钥 加 密 , 因 此 中 间 人 无 法 对 截取 的 摘要 内 容 进 行 解密 和 散 列 (无 
法 知道 加 密 算 法 ) ,从 而 保证 了 消息 的 可 徘 性 。 

3. 公 钥 基础 设施 

公 角 基础 设施 (Public Key Infrastructure ,PKI) 是 利用 公 钥 概念 和 加 密 技 术 为 网 络 通信 提 
供 的 符合 标准 的 一 整套 安全 基础 平台 ,也 是 一 套 由 软件 .通信 协议 ,数据 格式 安全 荣 略 等 组 
成 的 用 于 使 用 .管理 .控制 公 钥 密码 机 制 的 系统 。 公 钥 基 础 设施 有 三 个 主要 功能 : 

> 发 布 公 铀 和 证 书 ; 

关 证 明 绑 定 公 钥 的 实体 ; 

> 提供 会 钥 的 有 效 性 验证 。 

PKI 技术 采用 数字 证 书 管理 公 钥 ,通过 第 三 方 可 信任 的 认证 中 心 ( Certificate Authority， 
CA) ,把 用 户 的 公 和 钥 和 其 他 标识 信息 ( 如 名 称 E-mail 地 址 .身份 证 号 等 ) 拥 绑 在 一 起 ,在 互联 
网 上 验证 用 户 的 身份 。 数 字 证 书 的 使 用 过 程 如 下 : 

(1) 发 送 者 生成 一 个 密 钥 对 ( 公 钥 + 私 钥 ) ,并 把 私 钥 保 存 起 来 ,用 公 钥 回 CA 申请 
证 书 。 

(2) CA 接 党 申请 ,给 发 送 者 颁发 数字 证 书 , 证 书 中 包含 发 送 者 的 公 钥 和 其 他 号 份 信息 。 

(3) 同时 CA 会 计算 这 些 信息 的 消息 摘要 并 用 目 己 的 私 钥 加 密 消 息 摘 要 (数字 签名 ) 并 
附 在 发 送 者 的 证 书 上 ,以 此 来 证 明 这 个 证 书 就 是 CA 目 己 颁发 的 。 

(4) 接收 者 得 到 上 述 通 过 CA 加 持 过 的 证 书后 用 CA 证 书 中 的 公 钥 来 解密 消息 摘要 。 
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(5) 通过 步骤 (4) 可 以 确认 发 送 者 的 证 书 是 CA 颁发 的 ,证 书 未 被 自 改 ,同时 也 得 到 了 


发 送 痢 的 公 铀 。 


1、. 


2 可 信 计 算 


可 信 计 算是 由 可 信 计 算 组 织 ( Trusted Computing Group ,TCG ) 推动 和 开发 的 安全 计算 技 


术 ,其 基本 原理 是 在 计算 和 通信 和 领域 中 广泛 使 用 基于 硬件 安全 模块 的 可 信 计 算 平 台 以 提高 
整个 系统 和 应 用 软件 的 安全 性 与 完整 性 。 作 为 可 信 计 算 的 技术 推动 和 标准 制定 组 织 ,TCC 
由 AMD .惠普 IJBM .英特尔 和 微软 于 2003 年 组 成 ,并 逐步 取代 了 1999 年 成 立 的 可 信 计 算 平 
台 联 盟 。 目 前 TCG 已 经 发 展 成 拥有 几 百 个 成 员 的 国际 性 组 织 。 
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1. 名 词 解释 

在 介绍 具体 技术 之 前 ,我 们 先 来 解释 一 些 概念 和 名 词 。 

> TC: 可 信 计 算 (Trusted Computing ) 。 

> TCB: 可 信 计 算 基 (Trusted Computing Base) ,是 计算 机 系统 中 负责 执行 安全 策略 的 全 体 
实体 集合 ,包括 硬件、 软件 和 其 他 固件 。 其 更 抽象 的 理解 就 是 使 平台 可 信 的 最 小 代 
码 集 。 

> TPM: 可 信 平 台 模 块 (Trusted Platform Module) ,是 具有 加 蜜 功能 的 安全 微 控 制 希 , 绅 
在 提供 加 密 密 钥 等 基本 安全 功能 。TPM 芯片 一 般 集成 在 主板 上 并 通过 硬件 总 线 与 系 
统 的 其 他 部 件 通信 

> TCM: 可 信和 密码 模块 (Trusted Cryptography Module ) ,TCM 是 可 信 计 算 平 侣 的 便 件 模 
块 ,包括 密码 计算 区 、 受 保护 的 存储 区 和 主 计算 区 。TCM 为 TPM 提供 密码 运算 功能 ， 
包括 平台 完整 性 度量 .平台 免疫 力 建立 ,为 平台 身份 提供 唯一 标识 等 。 

> TSS .可 信 软 件 栈 (Trusted Software Stack ) ,是 可 信 计 算 平 台 的 支撑 软件 ,用 来 品 其 他 
软件 提供 安全 芯片 的 接口 ,并 通过 安全 机 制 增强 操作 系统 和 应 用 程序 的 安全 性 。 

> TNC: 可 信 网 络 连接 (Trusted Network Connection ) ,用 于 解决 网 络 环境 中 终端 主机 的 
可 信 接 入 问题 ,在 主机 接 入 网 络 之 前 ,必须 检查 其 是 否 人 符合 该 网 络 的 接 入 策略 ( 如 是 
否 安装 有 特定 的 安全 芯片 和 防 病毒 软件 等 ) 。 

> 信任 根 :根据 功能 分 为 可 信和 度量 根 ( RTM) .可 信人 存储 根 (RTS) 和 可 信 报 告 根 (RTR ) 。 

> RTM .可 信和 度量 根 ( Root of Trust for Measurement) ,是 一 个 进行 完整 性 度量 的 计算 引 
擎 ,以 CRTM 为 核心 信任 代码 ,系统 的 状态 和 信任 链 信息 被 保存 在 PCR 中 以 通知 其 
他 模块 。 

> CRTM :核心 信任 根 模 块 ( Core Root of Trusted Module) ,作为 可 信和 度量 根 ( RTM ) 的 核 
心 代 码 ,CRTM 在 可 信 计 算 中 被 认为 是 绝对 可 信和 的 代码 模块 ,是 计算 机 系统 可 信 的 基 
点 ,也 是 系统 启动 执行 的 第 一 段 代 码 。CRTM 对 计算 平台 的 可 信和 性 进行 度量 ,对 度量 
的 可 信 性 进行 存储 ,并 提供 可 信和 性 报告 。CRTM 可 以 是 一 段 BIOS 引导 程序 ,也 可 以 
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是 磁盘 或 芯片 上 的 一 段 代 码 。 

> RTS :可 信 存 储 根 (Root of Trust for Storage ) , 一 般 是 TPM 芯片 中 的 一 组 PCR 和 存储 
天 ,记录 了 完整 性 度量 的 摘要 值 。RTS 将 完整 性 度量 保存 在 日 志 中 ,并 将 它们 的 散 列 
值 保存 在 PCR 中 。 

> RTR :可 信和 报告 根 ( Root of Trust for Report ) ,是 一 个 RTS 可 徘 报 告 的 计算 引擎 。RTS 
保存 委托 给 TPM 的 密 钥 和 数据 并 管理 少量 的 内 存 , 其 中 存放 的 密 钥 用 于 解密 和 签名 
操作 。 

> TBB :可 信和 构建 模块 ( Trusted Building Block ) ， 是 根 信任 中 不 包含 屏蔽 区 域 或 保护 功能 
的 部 分 。 一 般 来 讲 ,TBB 只 包含 用 于 RTM 的 指令 和 TPM 初始 化 功能 ,这 些 指令 和 功 
能 是 不 同 平台 所 特有 的 。 

> Intel TXT .Intel 可 信和 执行 技术 。 

> 密封 :密封 是 指 TPM 对 数据 块 进行 加 密使 其 不 能 被 解密 的 行为 。 

2. 可 信 计 算 系 统 的 组 成 与 主要 技术 系统 

通过 前 面 的 介绍 ,我 们 在 此 梳理 一 下 :可 信 计 算 系 统一 般 由 以 下 几 部 分 (按照 从 底层 到 

上 层 .从 内 层 到 外 层 的 顺序 排序 ) 组 成 ,如 图 15 -8 所 示 : 


15 一 8 可 信 计 算 机 系统 的 组 成 
> 最 核心 的 模块 :TBB ,一 般 由 核心 信任 根 模块 (CRTM ,也 被 称 为 可 信和 度量 根 核 ) 和 可 信 
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台 模块 (TPM) 构成 。CRTM 负责 提供 最 核心 的 可 信 计 算 基 ,TPM 负责 基本 的 安全 


计算 功能 。 
> 主板 模块 :包括 CPU Cache 内存. 通 人 式 设 备 .其 他 固件 (BIOS 等 ) 以 及 USB 和 IDE 
接口 等 。 这 部 分 是 普通 计算 系统 都 应 该 具备 的 模块 。 


> 平台 模块 :对 应 的 外 设 (硬盘 .电源 和 其 他 板 卡 等 ) 。 
> 软件 模块 :整个 系统 中 最 上 层 的 部 分 ,包括 操作 系统 加 载 希 程序 .操作 系统 .设备 驱 
动 系统 服务 以 及 更 上 层 的 应 用 软件 。 

可 信 计 算 作为 一 门 新 兴学 科 , 其 主要 的 技术 目标 包括 : 

> 计算 平台 的 完整 性 ; 

> 平台 的 远程 证 明 ， 

> 数据 存储 的 安全 性 ; 

> 数字 知识 产权 保护 。 

经 过 这 些 年 的 发 展 , 目前 可 信 计 算 的 主流 技术 手段 是 利用 认证 密 钥 对 软件 度量 值 进行 
签名 和 验 签 ,而 认证 密 铀 和 软件 度量 信和 都 可 通过 可 信和 根来 进行 安全 存储 。 可 信 计 算 的 目的 
也 是 保证 整个 系统 软件 栈 的 安全 与 完整 ,防止 恶意 算 改 ,这 同时 也 是 “可 信 ” 的 技术 内 涵 。 当 
然 可 信 计 算 不 能 百 分 百 地 杜绝 完整 性 问题 ， Po 效 预防 和 减少 安全 性 问题 的 发 生 。 

可 信 计 算 的 主要 技术 手段 一 个 是 度量 ,一 个 是 验证 。 图 15 -9 展示 了 基于 静态 度量 的 
执行 流程 。 

> 所 谓 度 量 ,就 是 采集 和 检测 目标 软件 系统 的 状态 ,包括 静态 状态 (磁盘 文件 上 的 二 进 

制 特 征 码 等 ) 和 动态 状态 (系统 调用 等 软件 行为 特征 人 码 ) 。 
> 了 所谓 验 证 ,就 是 将 度量 的 结果 与 参考 值 进行 比 对 ,如 果 不 一 致 则 表明 软件 系统 发 生 了 
算 改 。 


用 进程 及 配置 文件 


Ei 
的 


|】 ”内核 模块 


TP™M 


BIOS+ 可 信和 度量 根 核 
司 1sS-9 基于 静态 度量 的 执行 流程 (左边 为 度量 过 程 ,右边 为 执行 过 程 ) 
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度量 是 一 级 一 级 地 从 底层 同上 逐 级 进行 的 ,通常 是 以 先 启 动 的 软 硬 件 的 代码 (例如 安全 
世 片 和 CRTM ) 作为 信任 根 , 并 以 此 为 基准 对 后 一 级 启动 的 软件 进行 度量 ,以 此 实现 信任 链 
的 癌 后 传递 ,以 保证 系统 计算 环境 可 信 。 整 个 过 程 体 循 “ 先 度量 再 执行 ”的 策略 。 例 如 在 
Windows 系统 启动 时 ,可 先 以 BIOS 或 TCM 中 的 某 段 代码 为 核心 信任 根 模块 (可 信 根 ) ,对 启 
动 链 上 的 BIOS/UEFI、WinLoader .操作 系统 镜像 文件 等 进行 逐 级 静态 度量 ,如 网 15 - 10 所 示 
的 物理 机 与 虚拟 机 的 信任 链 逐 级 度量 。 


物理 机 可 信和 链 


图 15 一 10 物理 机 与 虚拟 机 系统 启动 信任 链 


可 信和 根 作 为 整个 系统 信任 链 的 最 底 问 必须 绝对 可 信 , 因 此 可 信 根 一 般 是 通过 厂家 在 安 
全 沪 片 中 直接 植 入 算法 和 密 钥 实现 的 ,具有 不 可 禾 羡 性 ,因此 这 部 分 代码 也 被 称 为 可 信和 软件 
基 ( Trusted Software Base, TSB ) 。 

根据 安全 必 上 族 和 可 信和 软件 基 分 类 的 可 信 计 算 标 准 有 下 列 三 类 : 

> TPM :可 信 平 台 模 块 (Trusted Platform Module) ,技术 成 玖 ,商业 化 时 间 长 ,生态 得 到 微 

软 、 谷 歌 等 公司 的 文 持 。 

> TCM: 可 信 密 码 模块 (Trusted Cryptography Module) , 与 TPM 一 样 ,技术 成 熟 ,生态 

完善 。 

> TPCM: 可 信 了 平台 控制 模块 (Trusted Platform Control Module) ,是 国产 化 的 可 信 标 准 ， 

对 硬件 和 TSS 架构 做 了 很 大 调整 ,支持 主动 度量 ,但 是 技术 和 产品 均 不 成 熟 , 生 态 也 
不 完善 。 

可 信 计 算 作 为 一 门 安全 科学 ,其 涵盖 的 领域 很 大 ,一 般 来 说 包括 计算 环境 可 信 、 网 络 环 
境 可 信 、 网 络 接 入 可 信 .数据 存储 可 信 等 。 可 信 性 度量 手段 亦 包 括 静 态 与 动态 两 种 :在 系统 
局 动 时 采用 静态 度量 手段 ,在 系统 运行 时 可 采用 动态 度量 手段 以 检测 执行 环境 的 可 信 性 ,而 
可 信 计 算 的 一 般 性 信任 链 的 构成 如 图 15 -11 所 示 。 


图 15 一 11 可 信 计 算 的 信任 链 构成 
日 前 中 国 等 保 2.0 标准 的 四 级 安全 已 要 求 应 用 软件 的 可 信 性 能 够 动态 验证 ,对 行为 异 
常 的 应 用 进程 能 够 进行 阻 断 .删除 甚至 重启 系统 等 。 特 别 是 基于 云 平 台 的 可 信 计 算 ,对 于 包 
括 计 算 固件 .虚拟 机 管理 器 、Host 0S .Guest 0S .容器 .应 用 进程 等 在 内 的 一 系列 实体 的 可 信 
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性 ,怎样 度量 和 验证 又 是 一 个 轩 新 的 课题 。 

不 过 基于 信任 链 的 可 信 计 算 也 有 自己 的 不 足 , 包 括 : 

> 信任 链 越 长 ,信任 的 损失 越 大 ; 

> 信任 链 的 维护 比较 麻烦 , 牵 一 发 而 动 全 身 ; 

> CRTM 存储 于 TPM 之 外 , 易 遭 受 算 改 攻击 等 。 

后 面 几 节 我 们 会 分 别 介 绍 TPM ,可 信和 软件 栈 、 可 信 计 算 的 应 用 。 

3. 动态 可 信 性 度量 

动态 可 信 性 度量 主要 基于 将 软件 执行 过 程 中 的 行为 与 软件 的 预期 行为 进行 比 对 , 即 通 
过 行为 认证 码 的 方式 在 各 个 监控 点 上 监控 行为 是 否 可 信 。 监 控 的 对 象 是 数据 指纹 和 行为 指 
纹 ,数据 指纹 包括 数字 签名 ,摘要 等 ;行为 指纹 包括 系统 行为 (如 挂 钓 行 为 .模块 注入 等 高 危 
动作 ) .进程 行为 (如 进程 注 人 等 ) 网络 行 为 (如 非法 外 联 等 ) 和 文件 操作 等 ,如 图 15 - 12 
所 示 。 


可 执行 程 厚 


SHA-1 散 列 值 


_ 修 改 注册 表 | 
安装 全 局 钩子 
加 载 驱 动 | 
加 载 pLL | 
修改 系统 时 间 | 
网 络 行为 | | 而 是 吉本 
进程 行为 “上 提高 权限 | 
进程 注入 | 


行为 认证 码 


系统 行为 


文件 操作 


行为 指纹 _ 


可 信 控 制 
15 一 12 动态 可 信 性 度量 的 基本 思想 与 数据 指纹 和 行为 指纹 


15.3 可 信 平 台 模 块 


1. TPM 的 结构 

TPM( 可 信 平 台 模 块 ) 作 为 可 信 计 算 平 台 的 信任 根 是 一 种 片上 系统 (System On Chip ， 
SOC ) ,是 含有 密码 运算 部 件 和 存储 部 件 的 系统 级 芯片 ,是 系统 的 核心 。TPM 被 集成 到 主板 
上 ,通过 总 线 与 外 部 系统 交互 。 因 此 TPM 的 上 层 是 可 信和 软件 栈 (TSS) ,TSS 的 上 层 就 是 可 信 
平台 的 应 用 软件 了 。 每 个 厂家 对 于 TPM 的 结构 都 有 不 同 的 定义 ,TCG 定义 的 TPM 由 执行 引 
擎 密码 协 处 理 右 、 密 钥 产 生 部 件 .随机 数 产 生 部 件 .摘要 生成 部 件 .消息 认证 码 引 擎 .电源 检 
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测 部 件 .配置 开关 、 易 失 性 存储 需 . 非 易 失 性 存储 融和 LO 部 件 等 构成 ,其 结构 如 图 15 - 13 
所 示 ,具体 如 下 : 


密 钥 产生 部 件 
电源 检测 部 件 


15 一 13” TCG 定义 的 TPM 结构 


这 些 部 件 的 作用 或 组 成 如 下 : 

> 执行 引 警 :CPU 以 及 相应 固件 。 

> 密码 协 处 理 器 :加 解密 、 签 名 和 验证 签名 的 硬件 加 速 芯 片 ,采用 RSA 算法 ,也 允许 使 用 

ECC 或 DSA 算法 。 

> 密 钥 产生 部 件 :产生 RSA 密 钥 对 ,用 于 数字 签名 和 加 密 。 

> 随机 数 产 生 部 件 :TPM 的 随机 源 ,产生 随机 数 和 对 称 密码 的 密 钥 。 

> SHA-1 引擎 :是 基于 散 列 算法 SHA1 的 硬件 引擎 ,这 种 散 列 算法 产生 20 字 节 的 摘要 ， 

用 于 授权 和 喘 份 验证 。 

> HMAC 引擎 :是 基于 散 列 算法 SHA1 的 消息 认证 码 硬 件 引 擎 。 

> 电源 检测 部 件 : 监 视 TPM 的 电源 状态 。 

> 配置 开关 :对 TPM 的 资源 和 状态 进行 配置 。 

> 非 易 失 性 存储 器 :存储 密 钥 标识 等 重要 数据 。 

> 易 失 性 存储 器 :TPM 的 工作 存储 器 。 

> IO 部 件 :负责 TPM 的 对 内 对 外 通信 。 

TPM 的 功能 包括 对 CPU 的 数据 流 进行 加 密 .监测 系统 底层 状态 等 。 由 于 TPM 能 够 生成 
加 密 密 钥 .存储 密 钥 并 进行 身份 认证 ,因此 利用 TPM 芯片 ,可 以 开发 身份 识别 、 系统 登录 加 
密 数据 文件 加 解密 、 网 络 通信 加 解密 等 应 用 服务 。 不 过 TPM 的 设计 也 决定 了 其 不 适合 大 
数据 量 的 加 解密 吞吐 , 且 其 主要 是 面向 PC 而 非 服务 器 和 移动 端 。 

TPM 也 可 被 看 作 一 套 规 范 , 这 套 规范 定义 了 安全 密码 处 理 器 的 规格 ,或 可 被 看 作 这 套 规 
汇 的 实现 (例如 上 文中 的 TPM 结构 )。TCG 在 2000 年 之 后 已 经 建立 起 了 比较 完善 的 TPM1. 
2 技术 规范 体系 ,包括 : 
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> TPM 功能 与 实现 规范 (TPM Main Specification Version 1.2) ; 

> TSS 功能 与 实现 规范 (TSS Specification Version 1.2) ; 

> 针对 PC 平台 的 TCG 规范 (TCG PC Client Specific Implementation Specification for 
Conventional BIOS Version 1.2); 

> 针对 服务 需 平 台 的 TCG 规范 (TCG Server Specific Implementation Specification for TCG 
Version 1.2 和 TCG IPF Architecture Server Specification ) ; 

> 基础 设施 技术 规范 ,包括 号 份 证 书 网 络 认证 协议 、 完 整 性 收集 和 完整 性 服务 等 。 

> 针对 外 设 在 可 信 计 算 淋 构 中 的 技术 规范 ，; 

> 针对 网 络 安全 存储 的 TCG 规范 (TCG Storage Architecture Core Specification 1.0) 。 

2. TPM 中 的 密码 血 法 管理 

按照 TPM 版 本 的 不 同 ,TPM 对 于 密码 算法 的 管理 分 为 以 下 两 个 版 本 : 

> TPMI.2: 该 版 本 的 密码 算法 文 持 RSA 加 密 与 签名 .RSA-DAA SHAI .HMAC。TPM1.2 
并 未 要 求 必须 支持 对 称 加 密 算法 。 

> TPM2.0: 该 版 本 的 密码 算法 文 持 RSA 加 密 与 签名 、ECC 加 密 与 签名 、ECC-DAA、 
ECDH SHA1 SHA256 .HMAC .AES 等 ,TPM 芯片 厂商 可 以 随意 增加 新 的 算法 ,例如 国 
密 系列 的 SM2 .SM3 和 SM4 等 ,具有 一 定 的 扩展 性 。 

表 15 一 1 列 出 了 目前 常见 的 加 密 算 法 ,签名 算法 和 散 列 算法 的 名 称 与 解释 。 

表 1S-1 常见 密码 算法 


非 对 称 加 密 算法 , 且 两 个 密 钥 都 可 以 用 于 加 密 ( 通 常 

Re 用 公 钥 加 窗 , 用 私 钥 解密 )。RSA 算法 可 用 于 加 密 和 

算法 签名 ,加 密 或 签名 后 的 结果 不 可 读 。 签名 的 场景 下 ， 

， 用 私 钥 签名 ,用 公 钥 验 签 。 由 于 算法 效率 问题 ,一 般 
用 RSA 算法 加 密 比 较 短 的 对 称 密 码 


数据 加 密 标准 (Data 。 ”| 最 为 流行 的 对 称 加 密 算法 ,同时 也 是 一 种 分 组 (每 次 
Encryption Standard ) 处 理 固 定 长 度 的 数据 段 ) 加 密 算 法 ,分 组 大 小 为 64 位 


用 于 数字 签名 时 签名 生成 速度 很 快 ,验证 速度 很 慢 ， 


数 宇 签名 算 igita : 
数 了 签名 双流 (Digital | 加密 时 更 慢 , 但 解密 时 速度 很 快 ,安全 性 与 RSA 密 包 


Signature Algorithm ) 相等 , 密 钥 长 度 也 相等 


DSA 算法 在 椭圆 曲线 上 的 模拟 ,计算 参数 小 、 密 钥 短 、 
椭圆 曲线 数字 签名 算法 “| 安全 强度 高 .运算 速度 快 ,签名 短小 ,适用 于 计算 与 存 


直接 匿名 认证 (Direct 可 用 于 可 信 计 算 平 台 刁 份 认 证 ,比较 流行 的 是 基于 椭 
Anonymous Attestation ) 圆 昕 线 和 双 线 性 映射 的 DAA 方案 (上 CC-DAA ) 


安全 散 列 算法 ( Secure | 适用 于 数字 签名 标准 里 面 定义 的 数字 签名 和 摘要 算 | gy 入 > 
Hash Algorithm ) 法 摘要 输出 为 160 位 | . 


椭圆 曲线 加 密 (Elliptic 
Curve Cryptography ) 
顶 圆 曲线 迪 菲 - 赫 尔 曼 
秘 钥 交换 (Elliptic Curve 
Diffie-Hellman Key 
FExchange ) 

密 钥 相关 的 散 列 运算 消 
姑 认 证 人 码 

高 级 加 密 标 准 ( Advanced 


Encryption Standard ) 


商 密 1 号 算法 


商 密 4 号 算法 


摘要 输出 为 256 位 ,又 称 为 SHA2 
摘要 输出 为 512 位 
一 种 被 广泛 使 用 的 密码 散 列 困 数 ,摘要 输出 为 128 位 


一 种 公 钥 加 密 体制 


CZ 


散 列 算法 


一 种 密 钥 协 商 算法 而 非 加 密 算法 ,可 以 使 用 该 算法 在 | 密 


公 网 通道 上 进行 安全 的 密 钥 分 派 


HMAC 运算 利用 散 列 算法 ,以 一 个 密 钥 和 一 个 消息 为 
输入 ,生成 一 个 消息 摘要 作为 输出 


一 种 常见 的 对 称 加 密 算 法 


国家 密码 管理 局 编制 的 一 种 商用 密码 分 组 标准 对 称 
算法 ,也 是 分 组 密码 算法 ,分 组 长 度 和 密 钥 长 度 都 为 
128 位 ,算法 保密 强度 及 性 能 与 AES 相当 ,该 算法 不 
会 开 


国 密 标 准 的 椭圆 曲线 加 密 算 法 , 公 钥 密码 算法 ,但 比 
RSA 更 安全 、 更 先进 ,在 国家 商 密 体 系 中 用 来 替换 


RSA 算法 


一 种 密码 散 列 函数 标准 ,在 国家 商 密 体系 中 主要 用 于 
数字 签名 及 验证 .消息 认证 码 生 成 及 验证 .随机 数 生 
成 等 ,其 算法 公开 ,其 安全 性 及 效率 与 SHA256 相当 


一 种 分 组 密码 算法 ,在 国家 商 密 体 系 中 主要 用 于 数据 
加 密 , 其 算法 公开 ,分 组 长 度 与 密 钥 长 度 均 为 128 位 ， 
加 密 算 法 与 密 钥 扩展 算法 都 采用 32 轮 非 线性 迭代 
一 种 分 组 密码 算法 ,分 组 长 度 为 128 位 , 密 钥 长 度 为 
128 位 ,适用 于 非 接触 式 IC 卡 


一 种 标识 密码 算法 ,将 用 户 的 标识 (如 邮件 地 址 .手机 
号 码 .QQ 号 码 等 ) 作 为 公 钥 ,省 略 了 交换 数字 证 书 和 
公 钥 的 过 程 ,使 得 安全 系统 变 得 易于 部 署 和 管理 , 非 
常 适合 端 对 端 离线 安全 通信 云端 数据 加 密 、 基 于 属 
性 加 密 .基于 策略 加 密 的 各 种 场合 


散 列 算法 


从 上 文 得 知 ,TPM 配置 了 非 对 称 密码 , 散 列 函 数 .随机 数 产生 器 ,更 重要 的 是 也 配置 了 对 


应 的 硬件 加 速 部 件 : 


> 非 对 称 密码 :TPM 一 般 采 用 RSA 算法 , 密 钥 长 度 为 1024/2 048 位 ,主要 用 于 加 密 和 数 
字 签 名 ,例如 录 人 硝 书 密 铀 (EK) 、 映 份 证 明 密 钥 (AIK) 存储 根 密 钥 (SRK ) 等 。 由 于 
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非 对 称 密码 的 产生 比较 耗 时 ,因此 需要 采用 硬件 加 速 机 制 。 


> 散 列 函 数 :TPM 一 般 采 用 SHA1 和 HMAC 算法 ,用 于 形成 数据 摘要 以 辅助 数字 签名 和 


> 随机 数 产 生 器 :用 于 产生 密码 学 随机 数 .对 称 密 但 的 密 钥 以 及 认证 过 程 中 使 用 的 随 


机 数 。 


3. TPM 中 的 密 钥 管理 
TPM 中 的 密 钥 分 为 背书 密 钥 (Endorsement Key, EK ) 、 号 份 证明 密 钥 ( Attestation ldentity 


Key, AIK ) 、 存储 密 钥 ( Storage Kev,SK ) 、 存储 根 密 钥 ( Storage Root Kev, SRK ) 、 俭 名 密 针 
(Signing Key ,SIGK) 、 绑 定 密 钥 ( Binding Kev, BK) 继承 密 钥 (Legacy Key,LK) 和 访问 密 铀 
(Access Kev ,AK) 等 。 
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> 育 书 密 钥 : 痛 书 密 钥 是 一 种 解密 密 钥 ,也 是 TPM 的 身份 标志 ,因此 是 RTR 的 主要 组 成 


部 分 。EK 是 一 个 2 048 位 的 RSA 密 钥 对 。 

。 EK 在 确定 平台 所 有 者 时 解密 所 有 者 的 授权 数据 ,还 包括 解密 与 生成 AIK 相关 的 

。 EK 只 能 由 TPM 制造 商 .平台 拥有 者 .平台 制造 商 而 不 是 其 他 实体 产生 ,每 个 TPM 
的 EK 都 不 同 。 

。 EK 私 钥 以 明文 形式 存储 于 TPM 内 部 , 公 钥 以 证 书 形 式 管理 。 

e EK 不 能 用 于 数据 加 密 和 签名 。 

。 EK 用 于 生成 AIK 和 建立 TPM 平台 的 所 有 者 。 

e。 应 该 由 TPM 的 所 有 者 来 生成 SRK ,使 用 SRK 来 加 密 和 存储 其 他 的 密 钥 。 


> 身份 证 明 密 钥 :是 育 书 密 钥 的 符 代 者 , 仅 用 于 对 TPM 内 表示 平台 可 信 状 态 的 数据 和 


信息 (例如 PCR 时 间 惟 .计数 融 、 密 钥 可 迁移 数据 等 ) 进 行 签名 和 验证 签名 。 
e 几 是 经 过 AIK 签名 的 实体 ,就 表明 它 已 经 经 过 TPM 的 处 理 。 

e 不 能 用 AIK 签名 其 他 非 TPM 状态 的 数据 ,AIK 也 不 能 用 于 加 密 。 

。 AIK 只 能 由 TPM 所 有 者 在 EK 的 控制 下 在 TPM 内 部 产生 。 

。 每 个 用 户 可 以 有 多 个 AIK, 从 而 保证 了 平台 隐私 性 。 


> 存储 密 钥 :是 RSA 密 钥 对 ,用 于 对 其 他 密 钥 ( 包 括 存 储 密 钥 目 己 ) 进行 存储 和 加 密 


保护 。 

。 根据 密 钥 分 级 机 制 ,低级 密 钥 受 高 级 SK 加 密 保 护 ,构成 一 个 密 钥 树 。 

。 SRK 处 于 密 钥 树 顶 端 ,产生 于 TPM 内 部 , 私 钥 也 以 明文 方式 存在 于 TPM 内 部 。 
se。 SK 也 在 TPM 内 部 产生 ,使 用 时 装 和 人 TPM ,但 要 经 激活 才能 使 用 。 


> 存储 根 密 钥 : 是 存储 密 钥 的 特例 ,也 是 整个 系统 权限 最 高 的 存储 密 钥 。 


。 SRK 在 每 个 用 户 创 建 的 时 候 生 成 ,管理 该 用 户 的 所 有 数据 ,也 就 是 存储 可 信和 根 
(HI)s 
e 一 个 TPM 只 有 一 个 SRK。 
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e。 所 有 其 他 的 密 钥 都 在 SRK 的 保护 之 下 ( 密 钥 树 ) 。 
> 签名 密 钥 :是非 对 称 密 钥 ,用 于 数据 签名 而 不 能 用 于 加 密 。 
。 遵循 RSA 签名 密 钥 的 标准 ,有 和 震 干 种 不 同 的 长 度 。 
。 SIGK 在 TPM 内 部 产生 ,存储 在 TPM 外 部 ,使 用 时 装 人 加 解密 模块 。 
> 绑 定 密 钥 :用 于 加 密 小 规模 数据 ,在 为 一 个 TPM 平台 中 解密 。 
。 由 于 BK 使 用 平台 所 特有 的 密 钥 加 密 , 所 以 与 该 平台 绑 定 。 
e BK 在 TPM 内 部 产生 ,存储 在 TPM 外 部 ,使 用 时 装 人 加 解密 模块 。 
。 BK 的 用 法 与 传统 的 非 对 称 密 钥 加 密 相 同 。 
> 继承 密 钥 :用 在 一 些 需 要 在 平台 之 间 传 递 数据 的 场合 。 
e 设置 LK 可 以 使 TPM 密码 应 用 更 加 灵活 。 
。 LK 在 TPM 内 部 产生 ,存储 在 TPM 外 部 ,使 用 时 装 人 加 解密 模块 。 
。 LK 在 被 用 来 签名 或 加 密 之 后 才能 载 人 TPM。 
> 访问 密 钥 :是 TPM 中 的 对 称 密 钥 ,用 于 加 密 保 护 TPM 的 会 话 ,一 般 是 一 次 一 密 。 
上 述 密 钥 中 ,EK、AIK 和 SRK 必须 是 不 可 迁移 密 钥 ,其 他 的 可 以 是 可 迁移 密 钥 ,也 可 以 
是 不 可 迁移 密 钥 。 不 可 迁移 密 钥 永久 地 与 某 个 平台 关联 ,也 能 够 用 来 加 密 保 护 可 迁移 密 钥 ， 
反 过 来 却 不 行 。 不 可 迁移 密 钥 由 TPM 内 部 产生 ,在 产生 之 后 就 被 打上 了 TPM 的 标记 ,安全 
性 也 非常 高 。 同 时 不 可 迁移 密 钥 可 以 被 TPM 签名 ,从 而 可 以 向 挑战 者 或 者 用 户 证 明 其 不 可 
迁移 的 属性 ,进而 证 明 其 安全 性 。 所 谓 可 迁移 就 是 密 钥 可 以 从 一 个 可 信 计 算 平 台 转 移 到 号 
一 个 可 信 计 算 平 台 。 
TPM 中 的 密 钥 一 般 用 在 以 下 几 个 方面 : 
> 授权 数据 ;可 以 控制 建立 TPM 所 有 权 、 密 钥 使 用 .对象 迁移 等 行为 。 密 钥 的 使 用 者 必 
须 拥有 该 密 钥 的 授权 数据 验证 码 , 只 有 通过 验证 才能 使 用 。 授 权 数 据 在 密 钥 产生 时 
设 定 ,EK 与 SRK 的 授权 数据 存储 在 TPM 内 部 ,其 他 的 则 随 密 钥 一 起 存储 。 
> 平台 关联 :将 某 个 密 钥 与 一 个 秘密 随机 数 关 联 后 ,该 密 钥 只 能 在 该 TPM 内 部 使 用 ,以 
此 约束 密 钥 的 使 用 范围 。TCG 指定 了 一 部 分 PCR 的 值 与 产生 的 密 钥 的 关联 关系 ,使 
用 密 钥 时 TPM 会 核查 指定 的 PCR 的 值 。 
> 绑 定 : 绑 定 是 TPM 用 非 对称 密 钥 加 密 小 规模 数据 的 最 基本 方式 。 绑 定 指令 先 创 建 一 
个 数据 结构 ,将 欲 绑 定 的 数据 拷贝 进 该 数据 结构 ,最 后 用 BK 绑 定 加 密 该 数据 。 
> 密封 :密封 是 使 被 加 密 的 小 规模 数据 与 反映 平台 可 信 状 态 的 各 PCR 的 值 关 联 起 来 的 
加 密 方法 。 只 有 SK 才能 用 于 密封 数据 。 
表 1s-2 TPM1.2 中 定义 的 PCR 寄存 器 
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PCR8 ~ PCR15 存放 供 静 态度 量 0S 使 用 的 数据 


续 表 15 一 2 


IPL 配置 信息 PCR23 存放 供应 用 程序 使 用 的 数据 
此 外 ,TPM 中 还 定义 了 5 种 证 书 , 如 图 15 -14 所 示 。 
在 产生 EK 时 产生 


等 署 证 书 (EC) 8 z 
一 一 一 一 一 一 包括 TPM 生 产 商 名 称 、 型 号 与 版 本 、EK 的 公 钥 


由 具有 评估 TPM 或 可 信 计 算 平台 能 力 的 机 构 等 发 ， 表 示 TPM 或 可 信 
计算 平台 符合 该 机 构 的 评估 标准 


一 个 可 信 计 算 平 台 可 以 拥有 多 个 符合 性 证 书 ， 但 相同 型 号 产品 只 需 


符合 性 证 书 (CC) 6| 要 一个 证 书 


| 包括 评估 者 和 名称、 平台 厂商 名 称 、 平 台 型 号 与 版 本 、TPM 广 商 名 称 


TPM 中 的 证 书 有 I 5 , 确认 平台 身 


平台 证 书 ( PC ) 9/ 私密 的 ， 包 括 平 台 厂商 名 称 、 平 台 型 号 与 版 本 、 前 数据 证 书 、 符 合 
性 证 书 
\ 


不 是 所 有 部 件 都 需要 认证 证 书 
认证 证 书 (VC ) ee 一 一 一 一 一 一 一 
一 一 一 一 一 一 一 包括 认证 实体 名 称 、 部 件 厂商 名 称 、 型 号 与 版 本 、 度 量 值 
身份 证 书 (IC ) /AIK 证 书 (AC) 6 包括 TPM 厂 商 名 称 、TPM 型 号 、 版 本 、AIK 公 


图 1$S-14 TPM 中 的 证 书 


访问 TPM 的 对 象 需要 得 到 授权 ,也 就 是 说 使 用 密 铀 和 密封 存储 的 数据 时 必须 经 过 授 
权 。 代 表 授 权 的 秘密 信息 是 一 个 160 位 的 SHA1 算法 的 摘要 值 , 即 授权 数据 。 其 中 TPM 所 
有 者 和 SRK 的 授权 数据 存储 在 TPM 内 部 ,其 他 实体 的 授权 数据 则 随 实体 保存 。 

授权 数据 的 建立 和 更 改 是 通过 下 列 协议 实现 的 : 

> OIAP :对象 无 关 授 权 协 议 。 

> OSAP: 对象 相关 授权 协议 ,与 OIAP 联合 使 用 ,用 于 将 授权 数据 从 请 求 者 传递 给 

TPM ,并 建立 授权 会 话 上 下 文 对 象 。0SAP 也 是 基本 的 授权 数据 验证 协议 。 

> DSAP :委托 相关 授权 协议 。 

> ADIP: 授 权 数 据 插入 协议 。 

> ADCP :授权 数据 修改 协议 。 

> AACP : 非 对 称 授权 更 改 协议 。 


15.4 ”可 信和 软件 栈 


与 TPM 不 同 ,可 信 软 件 栈 (TSS) 是 一 套 软件 系统 ,强调 的 是 “ 栈 " 的 层次 关系 。 这 个 软件 栈 
是 为 上 层 的 可 信 计 算 应 用 提供 访问 TPM 接口 的 软件 系统 ,其 体系 结构 如 图 15 - 15 所 示 。 
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TSP 接 口 


提供 (TSP) | ,| | TSS 服 务 提供 (TSP) 


TSS 服 务 


Om ss i ss sh 


TCS 接 口 


TSS 校 心服 务 (TCS) 


TDDL 接 口 


TSS 设 备 驱 动 库 (TDDL) 


TPM 设 备 驱 动 (TDD) 


可 信 平 台 模 块 (TPM) 


15 一 15 可 信和 软件 栈 体系 结构 


可 信和 软件 栈 从 上 到 下 大 致 可 以 分 为 TSS 服务 提供 (TSP) .TSS 核心 服务 (TCS) 和 TSS 设 
备 驱 动 库 (TDDL) 三 层 . 
> TSS 服务 提供 ( TSS Service Provider ,TSP ) 层 
。 本 地 应 用 和 TSP 层 之 间 是 TSP 接口 (TSPI) 层 ,TSPI 采用 了 面向 对 象 的 设计 思想 ， 
文 持 通过 句柄 来 找到 对 象 实例 。 
e 本 地 应 用 使 用 这 些 对 象 实例 ,它们 也 被 称 为 工作 对 象 ,可 分 为 非 授 权 对 象 (DAA 对 
象 散 列 对 象 等 ) 和 授权 对 象 (TPM 对 象 . 密 钥 对 象 加 密 数据 对 象 等 ) 两 类 。 
。 除了 工作 对 象 ,TSP 还 提供 了 了 上下文 对 象 和 策略 对 象 。 
> TSS 核心 服务 (TSS Core Service,TCS) 层 ,TCS 以 系统 服务 的 形态 存在 于 TSS 中 ,其 
包括 了 以 下 功能 : 
。 管理 TPM 资源 (如 授权 会 话 、 密 钥 上 下 文 交 换 年 )。 
。 提供 TPM 命令 数据 块 产生 器 ,将 API 转换 成 TPM 可 以 识别 的 二 进 制 代 码 。 
。 提供 一 个 全 局 密 钥 存储 设备 。 
。 管理 PCR 事件 。 
。 同步 来 自 于 TSP 层 的 访问 请 求 。 
> TSS 设备 驱动 库 ( TSS Device Driver Library ,TDDL ) :TDD 是 个 内 核 态 组 件 , 即 TPM 
设备 驱动 ,这 是 由 TPM 设备 厂商 提供 的 。 用 户 态 进程 无 法 年 接 访 问 TDD ,因此 设备 
厂商 也 同时 提供 TDDL( 可 以 与 TPM 设备 驱动 交互 的 API 库 ) 供 应 用 程序 调用 ,由 
TDDL 与 TDD 打交道 。 
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。 TCS 往往 是 TDDL 的 唯一 使 用 者 。 
。 TDDL 是 TPM 的 通信 库 和 不 同 TPM 的 适 配 硕 。 
。 TDDL 为 应 用 程序 提供 了 不 依赖 于 操作 系统 的 接口 。 
。 TDDL 希望 由 TCS 来 完成 TPM 命令 的 序列 化 。 
根据 上 述 分 类 ,TSS 功能 模块 也 可 以 分 为 TSP 功能 TCS 功能 和 TDDL 功能 三 部 分 : 
> TSP 功能 .包括 上 下 文 管理 .策略 管理 .TPM 管理 . 密 钥 管理 .PCR 管理 .数据 加 解密 管 
理 . 散 列 管理 以 及 一 些 通 用 模块 。 
。 上 下 文 管理 :通过 管理 内 部 数据 对 象 来 协调 各 个 模块 的 资源 使 用 ,包含 了 与 对 象 
执行 环境 相关 的 信息 ,这些 都 是 与 TCS 交互 时 使 用 的 。 
e。 策略 管理 :可 以 为 不 同 的 应 用 程序 配置 对 应 的 安全 策略 ,也 可 以 为 应 用 程序 提供 
特定 授权 的 秘密 信息 。 
。 PCR 管理 :PCR 用 于 建立 系统 平台 的 信任 级 别 ,API 通过 PCR 对 象 来 使 用 PCR 
信息 。 
> TCS 功能 :包括 上 下 文 管理 . 密 钥 证 书 管 理 .事件 管理 和 参数 块 产生 等 。 
> TDDL 功能 :仅仅 是 用 于 管理 TDDL 接口 。 


15.5 基于 可 信 计 和 的 安全 局 动 技 术 


可 信 计 算 技术 在 计算 机 安全 启动 .数字 版 权 保护 .软件 防 注 入 、 喘 份 盗用 保护 等 诸多 领 
域 有 着 广泛 应 用 。 下 面 简单 考察 一 下 基于 可 信 计 算 的 计算 机 安全 启动 技术 。 

以 BIOS 方式 启动 的 计算 机 为 例 ,计算 机 启动 时 首先 会 执行 作为 可 信和 度量 根 的 一 小 段 代 
但 ,这 段 代码 可 以 是 BIOS 局 动 块 其 至 是 整 块 BIOS。 利 用 这 一 小 段 代 码 作为 校 验 局 动 过 程 
中 第 一 个 模块 的 度量 根 , 再 以 此 为 基础 校 验 第 二 个 模块 .第 三 个 模块 。 这 种 技术 被 称 为 基于 
可 信 计 算 的 安全 启动 技术 。 

BIOS 一 般 包括 BIOS 启动 块 和 POST BIOS 代码 两 部 分 内 容 , 且 两 者 都 可 以 单独 更 新 ,其 中 
POST BIOS 代码 还 可 以 分 为 初始 部 分 和 剩余 部 分 两 小 段 代 码 。 同 时 ,由 于 在 BIOS 启动 块 执 行 
时 主 存 尚未 准备 好 ,因此 这 个 阶段 只 能 使 用 主 CPU 的 寄存 器 作为 存储 空间 。 如 图 15 - 16 所 示 
就 是 系统 启动 时 基于 可 信和 密码 模块 的 度量 过 程 。 

如 图 15 - 16 所 示 ,平台 启动 的 同时 了 也 启动 了 BIOS 启动 块 和 可 信和 密码 模块 (TCM ) 。 
BIOS 启动 块 代码 被 散 列 生成 摘要 后 调用 TCM 进行 校 验 和 存储 ,如 果 校 验 通 过 则 以 此 为 基础 
度量 下 一 部 分 的 代码 , 即 POST BIOS 代码 的 初始 部 分 ,度量 的 过 程 依然 是 散 列 生成 摘要 并 要 
求 TCM 来 进行 校 验 并 存储 。 初 始 部 分 通过 验证 后 继续 校 验 POST BIOS 代码 的 剩余 部 分 (此 
时 主 存 已 经 初始 化 完成 ,因此 这 部 分 可 以 在 主 存 中 校 验 ) ,最 后 验证 MBR 等 模块 。 

可 以 看 出 ,基于 可 信 计 算 的 安全 启动 技术 是 以 可 信 密 码 模块 为 主要 组 件 的 一 种 层 层 校 
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、 Option ROM 
------- ~ 度量 值 存储 - 
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、 
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可 和信 黎 人 码 模块 (TCMD 


图 15 一 16 平台 启动 时 的 可 信和 性 度量 


15.6 ”TrustZone 技术 


消费 类 电子 设备 的 安全 保障 一 般 通 过 以 下 两 种 技术 方案 实现 . 
> 外 部 挂 接 人 硬件 安全 模块 ,以 保护 日 己 的 资源 和 和 密 钥 等 数据 不 被 任意 访问 ,数据 在 外 部 
安全 模块 和 本 地 计算 心 片 上 传输 ,保密 程度 不 局 。 
> 计算 心 片 内 部 集成 安全 模块 ,数据 传输 通信 放 在 了 必 片 内 部 ,因此 通信 速度 更 快 , 保 
密 程度 更 高 。 
基于 第 二 种 方案 ,ARM 提出 了 TrustZone 技术 ,专门 用 于 消费 类 电子 设备 的 安全 保密 和 
可 信 计 算 。TrustZone 本 质 上 是 一 种 人 硬件 染 构 和 安全 框架 ,其 基本 原理 是 将 片上 系统 的 软 人 刹 
件 资源 划分 为 安全 世界 和 非 安 全 世界 两 个 区 域 , 类 似 于 X86 体系 结构 下 的 内 核 态 与 用 户 态 ， 
通过 两 个 世界 访问 权限 的 差异 保证 资源 的 安全 与 可 信 。 如 图 15 -17 所 示 , 非 安全 世界 
( Normal World ) 和 安全 世界 ( Secure World) 通过 中 间 的 监视 模式 (Monitor Mode) 进行 转换 
和 通信 。 


[Te 


| 非 安 全 世界 下 安全 世界 
的 用 户 模式 “|; 的 用 户 模式 
非 安全 世界 |， 安全 世界 
的 特权 模式 | 1! 的 特权 模式 | ， 
| | 监视 模式 ‘ 


| 


15 一 17 TrustZone 架构 视 医 


在 TrustZone 架构 中 ,将 指纹 识别 .密码 处 理 加 解密 安全 认证 等 需要 保密 的 操作 运行 
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在 安全 世界 ,将 操作 系统 .进程 调度 等 不 怎么 需要 保密 的 操作 运行 在 非 安 全 世界 ,二 者 通过 
中 间 的 监视 模式 进行 模式 切换 。 

在 TrustZone 架构 中 一 个 CPU 一 般 有 两 个 虚拟 核 :安全 核 和 普通 核 , 核 之 间 的 通信 和 是 心 
片 内 部 的 事情 。 安 全 核 运 行 安全 世界 的 代码 , 非 安全 核 运 行 非 安全 世界 的 代码 ,两 个 虚拟 的 
核 以 类 似 基 于 时 间 片 线程 调度 的 方式 运行 。 这 里 要 注意 的 是 ,安全 核 可 以 访问 安全 世界 和 
非 安全 世界 的 资源 ,但 是 非 安 全 核 只 能 访问 非 安 全 世界 的 资源 。 

模式 切换 是 通过 AMBA3 AXI 系统 总 线 实 现 的 ,这 种 系统 总 线 对 于 TrustZone 的 使 用 场 
景 做 了 扩展 改进 , 即 在 总 线 上 针对 每 一 个 信道 的 读 写 增加 了 一 个 额外 的 控制 信和 号 位 NS 
( Non-Secure ) ,总 线 上 的 所 有 主 设备 在 发 起 新 的 操作 时 会 设置 这 些 信 号 ,总 线 或 从 设备 上 的 
解析 模块 会 对 主 设备 发 起 的 信号 进行 辨识 ,以 确保 主 设备 发 起 的 操作 在 安全 上 没有 违规 。 
AMBA3 AXI 总 线 也 为 TrustZone 架构 提供 了 外 设 隔离 的 基础 。 

从 非 安全 世界 到 监视 模式 是 通过 以 下 两 种 机 制 触发 的 : 

软件 执行 安全 监控 指令 (Secure Monitor Call ) ; 

> 硬件 异常 机 制 , 如 IRQ FIQO .External Data Abort .External Prefetch Abort 等 。 

从 安全 世界 跳 转 到 非 安全 世界 必须 经 过 监视 模式 的 切换 。 因 为 如 果 不 经 过 切换 而 直接 
跳 转 的 话 CPU 的 流水 线 和 寄存 器 、 缓 存 等 可 能 还 遗留 了 安全 世界 的 数据 , 非 安全 模式 就 有 

可 能 从 这 些 部 件 中 直接 获取 秘密 数据 而 造成 安全 隐患 ,给 侧 信 道 攻 击 融 来 便利 ,因此 监视 模 

式 是 二 者 切换 的 必由之路 。 


15.7 TXT 与 SGX 


Intel 文 持 两 种 可 信 计 算 技 术 , 即 可 信 执 行 技术 (Trusted Execution Technolosgy ,TXT) 和 软 
件 保护 扩展 技术 (Software Guard Extensions,SGX) 。 其 中 ,TXT 出 现 的 时 间 很 早 ,并且 是 保护 
整个 系统 的 技术 ,其 范围 包括 BIOS .CPU ,BootLoader、OSLoader、O0S 等 组 件 ,其 信任 链 也 很 
长 ;SGX 则 主要 是 保护 用 户 进 程 中 的 代码 和 数据 的 ,并 不 关心 BIOS 或 者 CPU 是 否 可 信和 ,也 
没有 信任 链 的 概念 了 。 

1. Intel TXT 技术 

Intel TXT 包含 了 一 组 新 的 安全 指令 ,并 且 以 CPU 中 的 某 段 微 码 作为 CRTM ,同时 也 支持 
Intel 的 虚拟 化 技术 。 其 中 支持 TXT 的 芯片 组 拥有 一 组 专门 的 TXT 寄存 天 ,并 且 被 设计 为 一 
个 增强 型 架构 ,同时 对 TPM 的 访问 也 是 受 控 的 (这 里 的 TPM 主要 是 用 于 提供 存储 空间 和 度 
量 值 管理 ) 。 

文 持 TXT 的 BIOS 文 持 配 置 平台 的 安全 模式 ,并 提供 了 一 个 认证 代码 模块 ( ACM) ,这 是 
TXTBIOS 的 核心 。ACM 是 世上 请 组 三 商 提供 的 ,可 以 执行 安全 检查 和 注册 ,在 处 理 硕 中 的 专 
用 安全 内 存 空间 中 以 最 高 的 权限 执行 。 按 照度 量 阶段 的 不 同 ACM 可 分 为 两 种 类 型 ， 

> BIOSACM :用 于 度量 BIOS 并 执行 多 个 基于 BIOS 的 安全 功能 。 
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> SINITACM :用 于 执行 操作 系统 的 安全 启动 。 
支持 TXT 的 处 理 右 启动 时 的 度量 序列 如 图 15 一 18 所 示 。 


处 理 磊 ACM BIOS Option ROMIs TPM 
度量 ACM PCRO 
度量 BIOS PCRO 
PCRO 
度量 组 件 PCR1 
PCR7 
度量 状态 转 
下 PCRE 
换 一 一 唤醒 事件 x 
PCR2 
PCR3 
总 藏 代 PCR2 
度量 IPL 人 代码 
(MBR) PCR4 


引导 加 载 程序 


15 -18 支持 TXT 的 CPU 的 静态 度量 执行 序列 


2. Intel SGX 技术 

Intel SGX 技术 同样 也 包含 了 一 组 新 的 指令 集 , 其 TCB 是 基于 硬件 的 ,并 文 持 严 格 的 内 
存 访问 机 制 。 其 基本 原理 是 在 应 用 进程 的 虚拟 地 址 空间 中 划分 出 一 部 分 被 保护 的 区 域 ,为 
重要 敏感 的 代码 和 数据 提供 机 密 性 和 完整 性 保护 。 基 于 上 述 原 理 ,要 求 在 系统 调用 SGX 
指令 之 前 必须 支持 内 存 分 页 机 制 并 处 于 保护 模式 中 。 

在 介绍 SGX 技术 之 前 先 来 看 看 什么 是 Enclave 和 了 上 PC。 

Enclave 可 以 理解 为 一 个 小 黑 盒 ,加 载 到 这 个 小 黑 盒 子 中 的 数据 和 代码 必须 被 度量 ,并 
且 不 允许 外 部 软件 访问 小 黑 盒 中 的 内 容 , 因 此 可 以 看 出 Enclave 是 一 个 代码 和 数据 运行 的 安 
全 环境 ,可 以 杜绝 恶意 程序 对 应 用 进程 代码 和 数据 的 访问 。 其 特征 可 以 概括 如 下 . 

> 具有 日 己 的 代码 和 数据 ; EPC 

> 提供 机 密 性 和 完整 性 保护 ，; 

> 具有 可 以 控制 的 入 口 点 ; 

> 文 持 多 线程 ; 

> 对 应 用 程序 的 内 存 空间 有 具有 最 高 的 访问 权限 。 

EPC( Enclave Page Cache, Enclave 页 面 缓存 ) 是 : 
Enclave 驻 留 的 内 存 区 域 ,因此 这 是 一 块 被 保护 的 物理 Enclave 
内 存 , 专门 存放 Enclave 和 SGX 的 相关 数据 结构 ,如 
图 15 -19 所 示 。 并 且 EPC 区 域 中 的 内 容 会 被 加 密 , 只 攻 瑟 -1 EPC Enclave 的 大 系 


SGX 数 据 结构 


Enclave 


| 


CJ 应 用 软件 开发 协议 栈 ey 


有 当 这 些 内 容 进 入 CPU package 时 才 会 解密 。 
当 CPU 访问 Enclave 中 的 代码 /数据 时 , CPU 会 自动 切换 到 一 个 新 模式 一 一 Enclave 模 
式 ,该 模式 会 强制 对 每 一 次 的 内 存 访问 进行 额外 的 检查 ,这 种 检查 是 由 硬件 实现 的 ,因此 其 
速度 比较 快 。 这 种 检查 被 称 为 EPCM( Enclave Page Cache Map ,Enclave 页 面 缓存 映射 ) 检 
查 :检查 请 求 访 问 的 页 面 是 否 属于 正在 运行 的 那个 Enclave 也 就 是 说 确保 只 有 Enclave 中 的 
代码 才能 访问 该 Enclave 中 的 内 容 。 
因此 ,SGX 技术 的 本 质 就 是 解决 如 何 管理 Enclave 和 如 何 访问 Enclave 中 的 数据 /代码 。 
可 以 分 两 个 方面 来 回答 上 述 问题 
(1) 如 何 解 释 内 存 访问 的 语义 ? 
SGX 支持 物理 上 锁 住 EPC 内 存 区 域 , 使 外 部 进 : 
会 执行 以 下 检查 : 
> 检查 处 理 天 是否 运行 于 Enclave 模式 。 
> 检查 访问 地 址 是 否 在 Enclave 地 址 空间 中 ,并 检查 物理 地 址 是 否 在 EPC 内 存 区 域 中 。 
> 执行 EPCM 检查 。 
根据 上 述 的 检查 结果 ,对 于 内 和 存 的 访问 可 能 产生 如 下 的 结果 : 
> 运行 于 非 Enclave 模式 的 CPU 访问 EPC 之 外 的 内 存 , 这 种 情况 下 CPU 按照 保护 模式 
执行 访问 。 
> 运行 于 非 Enclave 模式 的 CPU 访问 EPC 内 部 的 内 存 , 这 种 情况 下 将 其 视 为 引用 了 不 
存在 的 内 存 ,等 同 于 非法 操作 而 拒绝 ，。 
> 运行 于 Enclave 模式 的 CPU 访问 的 内 存 页 面 不 在 当前 Enclave 虚拟 地 址 空间 ,但 处 于 
EPC 的 内 存 区 域 范围 ,这 种 情况 下 依旧 将 其 视 为 引用 了 不 存在 的 内 存 。 
> 运行 于 Enclave 模式 的 CPU 访问 EPC 以 外 的 代码 /数据 ,此 时 需要 做 进一步 检查 。 
> 运行 于 Enclave 模式 的 CPU 访问 当前 Enclave 内 存 区 域 , 这 是 可 以 通过 的 。 
(2) 如 何 实现 内 存 地 址 映射 ? 
EPC 中 的 内 存 依旧 以 4KB 大 小 的 页 面 为 访问 单位 ,页 面 的 控制 信息 存放 于 EPCM 中 ,这 
是 一 个 便 件 结构 ,并且 只 能 由 PMH(Page Miss Handler, 缺 页 处 理 需 ) 人 硬件 模块 来 访问 ,相当 
于 在 保护 模式 的 基础 上 又 增加 了 一 层 访问 控制 。 其 工作 原理 与 内 存 页 面 表 管理 大 致 相同 ， 
每 一 个 EPCM 项 代表 一 个 EPC 内 存 页面 , 并 且 所 有 的 EPCM 项 构成 了 一 个 一 维 数组 。 
因此 , 综 上 所 述 ,Enclave 是 SGX 技术 中 保护 数据 /代码 机 密 性 与 完整 性 的 关键 。 当 应 用 
程序 申请 一 个 小 墨盒 (Enclave) 空间 时 上 月 然 要 进行 页 面 分 配 数据 拷贝 等 操作 ,因此 申请 
Enclave 的 最 后 一 步 要 对 Enclave 的 完整 性 进行 度量 验证 :是 否 有 特权 软件 在 创建 过 程 中 修 
改 了 数据 ? 是 否 有 多 与 分 配 的 内 存 页 面 ? 是 否 复制 了 恶意 代码 等 。 执 行 完 上 述 验证 后 ， 
SGX 会 最 终 形成 一 个 创建 序列 的 度量 结果 集 , 并 保存 于 Enclave 的 控制 结构 中 。 
SGX 再 通过 一 条 初始 化 指令 将 上 述 结果 集 与 由 Enclave 的 所 有 者 签名 过 的 证 书 中 的 完 
整 性 参考 值 作对 比 : 


旦 无 法 访问 。 同 时 针对 汇编 指令 的 访问 
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> 如 果 匹 配 , 则 会 将 证 书 中 的 所 有 者 公 钥 进行 散 列 计算 ,并 作为 密封 身份 保存 于 
Enclave 控制 结构 中 ; 
> 如 采 不 匹配 , 则 返回 失败 结果 。 


本 章 小 结 


本 章 较 为 详细 地 介绍 了 可 信 计 算 相 关 的 技术 。 

首先 介绍 可 信 计 算 的 基础 一 一 加 解密 技术 ,以 及 可 信 计 算 的 相关 概念 和 信任 链 的 原理 ， 
这 是 可 信 计 算 运 行 的 基础 。 

然后 介绍 可 信 平 台 模 块 (TPM ) 的 概念 。TPM 是 可 信 计 算 的 核心 模块 ,包括 各 种 加 解密 

可 信和 软件 栈 是 可 信 计 算 的 软件 层次 的 实现 ,包括 了 回应 用 进程 提供 的 服务 .接口 便 件 
设备 驱动 库 等 重要 组 件 。 

接 下 来 介绍 了 基于 可 信 计 算 度量 和 验证 机 制 的 系统 安全 局 动 技术 ,该 技术 可 以 用 于 服 
务 骨 PC 以 及 各 种 物 联网 设备 中 。 

最 后 分 别 介 绍 了 ARM 提出 的 TrustZone 技术 和 Intel 针对 不 同 的 保护 对 象 而 提出 的 
TXT .SCX 技术 ,这 些 技术 都 是 芯片 厂商 针对 具体 处 理 器 而 提出 的 可 信 计 算 的 保护 方案 。 
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Windows 设备 驱动 是 内 核 中 非常 重要 的 模块 ,其 地 位 相当 于 外 围 设备 的 应 用 使 能 软件 。 
换 句 话说 ,没有 设备 驱动 ,就 无 法 正常 使 用 外 围 设备 。Windows 设备 驱动 一 般 是 SYS 类 型 的 
文件 ,这 类 文件 也 是 Windows PE 文件 体系 下 的 一 种 ,有 自己 的 人口 函数 和 加 载 地 址 。 

驱动 从 广义 上 分 为 两 种 。 一 种 是 硬件 驱动 ,这 种 驱动 与 具体 设备 绑 定 关联 ,负责 翻译 内 
核 ( 例 如 IO 管理 需 ) 的 IO 请 求 ,并 屏蔽 不 同 硬件 的 差异 性 。 例 如 显卡 驱动 负责 将 绘图 数 
据 解 释 成 点 . 线 面 并 绘制 到 HDMI 或 VGA 输出 口上 ,但 是 Intel 有 Intel 的 显卡 驱动 ,NVIDIA 
有 NVIDIA 的 显卡 驱动 ,彼此 之 间 不 能 通用 ;磁盘 驱动 负责 将 文件 系统 的 IO 请 求 翻译 成 对 
傍 盘 的 读 写 操作 ;而 网 卡 驱动 则 负责 网 络 请 求 包 在 网 卡 上 的 发 送 .接收 和 缓存 等 工作 。 

还 有 一 种 是 纯 软 件 张 动 ,这 类 驱动 不 与 具体 硬件 设备 绑 定 或 关联 ,也 不 负责 屏蔽 不 同 广 
家 人 硬件 设备 的 差异 性 。 例 如 TCP/AIP 协议 栈 驱 动 ( 包 括 tepip. sys TDL sys 等 ) 负责 OSI 参考 
模型 中 从 第 二 层 到 第 四 层 的 协议 解析 与 适 配 工作 。 

图 16 -1 显示 了 Windows 7 系统 下 的 各 驱动 。 


内 核 模块 


驱动 名 
tpm.sys 
termdd,sys 


驱动 类 型 
一 般 驱 动 
一 般 驱 动 


Smb_driver_Intel,,， 


shhwapi.dl 
shell32.dll 
sgx_driver.sys 
setupapi.dll 


基地 址 
0xfffffe8007d90000 
Oxfffff8800663e000 
Oxfffff88007b34000 
0xfffffe80043d8000 
Oxfffff880043cb000 
0xfffffe80037b7000 
0xfffff88001603000 
Oxfffff8800822b000 
Oxfffff88006610000 
Oxffiff88007e1b000 
Oxfffff88001165000 
0xfffff88003786000 
Oxfffff88003c30000 
Oxfffff88003c98000 
Oxfffff88001912000 
0x47ed0000 
Oxfffff8800835e000 


Oxfffif880083f1000 
0xfffffffffde70000 
nvfffffnRnn191annn 


0xld7000 


驱动 对 象 

0xfffffa8007831e70 
Oxfffffa80074d1e70 
0xfffffa800784abf 
Oxfffffa800749f980 


Oxfffffa8008123530 
0xfffffa8007388680 
Oxfffffa8007896bb0 
Oxfffffa80074cae70 
Oxfffffa80077cb4b0 


0xfffffa8009ce5e70 
OxfffffaB008158150 
OxfffffaBO0081fc680 
OxfffffaBo07413de0 


Oxfffffa80077df870 


Oxfffffa800778abd0 


mfrfaanNnNnranhaoan 


驱动 路 径 


C:\Windows\system32\d... 
C:\Windows\system32\d... 
C:\Windows\system32\D... 
C:\Windows\system32\D... 
C:\Windows\system32\D... 
C:\WWndows\system32\d... 
C:\Windows\system32\d... 
C:\Windows\system32\D... 
C:\Windows\system32\D... 
C:\Windows\system32\d... 
C:\Windows\system32\d... 
C:\Windows\system32\D... 
C:\Windows\system32\D... 
C:\Windows\system32\D... 
C:\Windows\system32\D... 
C:\Windows\system32\s... 
C:\Windows\system32\D... 
C:\Windows\system32\s... 
C:\Windows\system32\s,.. 
C:\Windows\system32\D... 
C:\Windows\system32\s... 


FWAndnwalevresterma2d 


Windows (R 
Microsoft Cc 
Microsoft Cc 
Microsoft Cc 
Microsoft Cc 
Microsoft Cc 
Microsoft Cc 
Microsoft Cc 
synaptics In 
Microsoft Cc 
Microsoft Cc 
Windows (R 
Microsoft Cc 


有 wh 看 有 站 Samalinn FE ” 
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16 一 1 Windows 7 系统 下 的 各 驱动 
驱动 程序 一 般 存在 于 内 核 态 内 存 空间 ,这 是 因为 驱动 程序 作为 设备 的 代理 要 处 理 输入 
输出 中 断 。 既 然 是 中 断 , 其 优先 级 和 资源 访问 权限 都 是 很 高 的 , 且 蝎 重要 的 是 驱动 程序 往往 
要 与 VO 管理 大 等 内 核 组 件 频 索 交互 ,因此 大 部 分 驱动 程序 必须 放 在 内 核 态 内 存 空 间 。 不 
过 随 者 驱动 技术 的 发 展 ,目前 也 出 现 了 用 户 态 驱动 程序 ,例如 WDF 模型 中 的 UWDF 驱动 程 
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序 就 是 专门 的 用 户 态 驱动 程序 ,数据 平面 开发 套件 (DPDK ) 作为 网 络 协议 栈 驱 动 的 劳 路 和 蔡 代 
者 也 是 存在 于 用 户 态 空间 的 。 

驱动 程序 的 加 载 分 为 静态 和 动态 两 种 方式 ,在 操作 系统 引导 (该 阶段 适用 于 老式 驱动 的 
加 载 ) 和 初始 化 阶段 (执行 loIlnitSystem ,适用 于 即 插 即 用 式 驱 动 的 加 载 ) 的 加 载 是 静态 的 ,而 
通过 系统 调用 NtLoadDriver 加 载 的 方式 是 动态 的 , 且 动 态 方 式 只 能 加 载 老式 ( Legacy ) 驱动 ， 
即使 是 支持 即 插 即 用 的 “ 较 新 ”的 驱动 也 是 按照 老式 驱动 的 方式 进行 加 载 。 这 些 老 式 驱 动 是 
Windows 系统 用 于 兼容 过 时 的 软件 或 硬件 而 保留 的 驱动 程序 。 

当前 Windows 设备 驱动 按照 架构 可 以 分 为 NT 式 驱动 WDM 驱动 和 WDF 驱动 三 种 模 
型 ,按照 功能 则 可 以 分 为 第 规 型 驱动 和 过 小型 驱动 。 第 规 型 驱动 就 是 我 们 第 说 的 功能 型 驱 
动 ,这 类 驱动 完成 设备 端 既 有 的 功能 ;过 滤 型 驱动 用 于 在 驱动 栈 中 过 滤 或 者 拦截 IRP ,往往 
是 作为 栈 中 的 一 个 节点 堆 革 在 驱动 栈 中 的 。 

本 章 将 按照 图 16 -2 所 示 的 提纲 ,根据 设备 驱动 架构 的 划分 方法 分 别 介绍 三 种 驱动 模 
型 .NT 式 驱 动 模型 WDM 驱动 模型 和 WDF 驱动 模型 。 


定义 、 作 用 及 结构 
驱动 对 银 ”6/ 一 一 
定义 、 作 用 及 结构 
设备 对 象 < 
设备 对 象 与 驱动 时 象 的 关系 
| ”内 存 描述 符 表 MDL 9 一 一 
] ”MDL 的 用 去 


IO 请 求 包 IRP IRPp 堆 栈 的 定义 和 结构 
IRP 的 上 、 下 行 传递 流程 


NT 式 驱 动 模型 及 其 函数 接口 
pPDO、FDO 的 概念 及 其 推 若 关 系 
WDM 奖 动 模型 曲 
人 WDM 荆 动 异型 函数 控 吕 


KMDF 定 义 、 特 点 、 框 染 、 运 行 过 程 、 对 象 体系 、 对 象 关系 图 诺 
{。_UMDF 定 义 、 特 点 、 反 射 器 的 概念、 对 银 关 系 图 痢 


图 16 2 本章 提纲 
16.1 驱动 框架 的 数据 结构 
16.1.1 了 驱动 对 象 
每 一 个 驱动 程序 都 会 以 一 个 驱动 对 象 实例 ( DRIVER_OBJECT) 来 表示 ,驱动 对 象 是 在 驱 


动 程序 加 载 时 由 对 象 管理 表 创 建 的 ,包含 了 驱动 对 象 的 入口 地 址 .驱动 名 称 映像 大 小 \ 派 遗 


Ee 


CJ 应 用 软件 开发 协议 栈 LO 


图 数 等 关键 信息 。 每 个 驱动 对 象 会 天 联 一 个 或 多 个 设备 对 象 (DEVICE ee 这 是 由 驱 
动 程序 创建 的 ,用 于 表示 具体 设备 ,例如 磁盘 .网卡 等 ,但 是 一 个 设备 对 象 只 能 属于 一 个 驱动 
对 象 。 驱 动 对 象 关联 的 多 个 设备 对 象形 成 设备 对 象 链表 ， em 才 构 还 包括 一 
个 扩展 区 域 ,这 个 区 域 存 放 了 与 特定 设备 相关 的 数据 (DEVICE_OBJECT 只 是 存放 了 一 些 共 
性 数据 )。L/O 管理 右 问 设备 对 象 发 送 读 写 和 控制 请 求 , 却 是 由 驱动 对 象 捕获 和 处理 的 。 驱 
动 对 象 还 有 个 扩展 结构 体 DRIVER_EXTENSION ,这 个 结构 体 存 放 了 另外 一 些 驱 动 程序 的 信 
是 ,但 是 比较 有 意义 的 是 AddDevice 图 数 指针 当 操 作 系 统 发 现 一 个 新 的 设备 实例 时 会 月 动 
调用 该 明 数 ， 因此 AddDevice 要 完成 设备 实例 相关 的 初始 化 工作 。 

从 图 16 -3 可 以 看 出 ,有 的 驱动 对 象 关 联 了 一 个 设备 对 象 , 有 的 关联 了 多 个 。 驱 动 对 象 
DRIVER_OBJECT 数据 结构 如 下 所 示 : 


一 DRV ‘\DrvenN\360AntiAttack 
| | DEV \Device\360AntiAttack 
DRY \Driven360AntiHacker 
DEY \Device\360Nsifilter 
DEV (unnamed) 
“DEY \Devicea\360AntiHacker 
一 DRV \DrivenN\360AntiHijack 
DEV \Device\360AntiHijackPacke 


Dowvice Hame: MN\Dowiea\ SDAntiNi ek 

Driver Hame: NN\Driver\360AntiNHi jack 

Device Object [DEFFFFAB007568670 pehevice: 

Driver Object Dewiece bxi2 Dpe Routine: 

Hext Device: [0x0000000000000000 |Stack Size: 儿 Dpe Hambear: 

Handle Coumnt: 0 - 内 Li Erment: x0 Chearactoristi ewld0 
Fointar Count- Veb: Dx0000000000000000 Flags' ed40 


Type: [FILE DEVICE NETWORK 
Security Attributes | 


DEV ‘\Device\360AntiHijack 

—DRAY \Drver\360Camera 

日 …DEV (unnamed) 

| oo BTT Device\0000009a 
DEVW ‘Device\360Camera 

一 DRV \Driven\360netmon 

DEV \Device\360TdiSpeed 
DEV ‘\Devica\360TdiFilter 

一 DRV VDrivem360qpesv 

一 DRVW \Drvern\360reskit6d 

—DRAY \Driver\360Sensor 

—DRY \DrivemACPI 

-DRV ‘\Driver\ACPL HAL 

-DRY \Drven\AFD 

-DRW ‘\Drvern\amdxata 

-DRV ‘\Driver\AsyncMac 

-DRV ‘\Driven\BAPIDRY 

-DRV ‘\DnveN\Beep 

-DRY ‘Drnvern\blbdrive 

DRV ‘\Driver\CLFS 

DRV ‘\Drven\\CMB8100 

一 DRVw DrnverCmBatt 

-DRY VDnwemCMBProtector 


由 
由 
由 
由 
由 
幢 - 
由 - 
自 
由 


Creation Time: D1701770 8:00:00 References: 0 Current 工 rp: 


具 七 萎 三 所 所 让 Dwnine Dew 


了 开发 放 六 站 避 人 闻 和 Di Cr 2 
Wi 


Enumeration lnformatl or 
Dewi ee Id: 
Tn nee 


了 到 人 明 六 季 六 站 疝 生 有 0 站 而 生 必 站 忆 ] 各 区 呈 


Veridar: 


Har dware Tds: Compatikble 


Dewviee Copabilitios: 


[ 厂 DevieeDl FF DockDevice 
5 Deviecen2 Uni quelIl 三 SurpriseRemowalOl 
LockSupporied  「 Remowvable [5 SilentInstall 


EijeetSupporte 让 生 引 i 电 志 | 
SystemWake: [| IThonber: | 

DeviceWake: | 
D3Lateney: | 


[HeardwareDisable 
FF NonDynamie 

下 YarmEiectSupporte 
矿 了 aoDisplayrInUT 


厂 RasDewviee0K 


了 0 和 ri 已 三 写 炒 总 下 看 


DlLaterey: 
DeLateney: 


Driwer Mode 


16 -3 Windows 7 系统 下 驱动 对 象 与 设备 对 象 的 关联 关系 


typedef struct _ DRIVER OBJECT I 


2508 


CSHORT Type; / /表明 对 象 类 型 为 驱动 对 象 

CSHORT Size; / /驱动 对 象 结 构 体 大 小 

PDEVICE OBJECT DeviceObject; / /驱动 对 象 关联 的 设备 对 象 或 设备 链表 的 第 一 个 对 象 

ULONG Flags; / /标志 位 

PVOID Driverstart; / /驱动 映像 的 基 址 

ULONG DriverSize; / /驱动 映像 的 大 小 

PVOID DriverSection; //Section 对 象 指针 , 指向 驱动 程序 的 可 执行 文件 

PDRIVER EXTENSION DriverExtension;  // 驱 动 扩 展区 域 指针 

UNICODE STRING DriverName; / /驱动 程序 路 径 和 名 称 

PUNICODE STRING HardwareDatabase; // 设 备 的 注册 表 键 名 ,决定 了 启动 的 顺序 

PFAST IO DISPATCH ”FastIoDispatch;  // 快 速 I/0 函数 指针 

PDRIVER INITIALIZE DriverInit; / /驱动 加 载 时 , 工 /0 管理 器 将 DriverInit 字段 设置 为 驱 
// 动 的 人 口 图 数 (DriverEntry) 

PDRIVER STARTIO DriverstartIo; // 指 向 StartIo 函数 指针 ,用 于 串 行 化 操作 

PDRIVER UNLOAD? DriverUnload; // 驱 动 程序 印 载 函数 指针 


PDRIVER DISPATCH 


MajorFunction[ IRP MJ MAXIMUM FUNCTION +1]; 


// 派 遗 印 数 指针 数组 


16.1.2 
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} DRIVER OBJECT, * PDRIVER OBJECT; 


从 图 16-4 也 可 以 看 出 ,DRIVER_OBJECT 中 也 不 是 每 个 域 郁 有 意义 ,例如 快速 函数 指 


针 FastIoDispatch 就 可 以 为 0。 


DRV ‘\DnvenN\360AntiAttack 
-DEV \Device\360AntiAttack 
DRY ‘\DnveN\360AntiHacker 
-DEV ‘\Device\360NsiFilter 
DEY (unnamed) 
DEV ‘\Device\360AntiHacker 
DRY \Dnven\360AntiHyack 


DEV \Device\360AntiHijackPacke = 


DEV ‘\Devicea\360AntiHijack 
DRY VDriver360Carmera 
= DEV (unnamed) 


LTT \Device\0000009a 


DEV ‘Devicea\360Camera 
= DRY VDriver360netmon 
DEY ‘Device\360TdiSpeed 
-DEV ‘\Device\360TdiFilter 
DRV \Dnvern360qpesv 
DRV \Drver\360reskit64 


加 载 的 具体 步 又 如 下 : 
(1) 根据 驱动 名 称 判断 驱动 是 否 已 


Driver Hame: 
Load hddress: 

| Driver Size: 
Handle Count.: 

| References: 

| htiributes: 

| Driver Object.: 
FastIo Dispatch 
| StartIo Entry 
hdd Device Entry 
| Flags: 

/ Service Hame: 


Hardware Database: 


| Device List: 
] Devics ne J Device Ouject lodes TE TRG Tae SD 


\Devi ce\360AntiNi jack OxFFFFFA. . 
| | Deviece\360AntiNi.. 


Driver\360AntiNijack Major Function Codes Supported:; 
DxFFFFFS88006933000 IRF MJ CREATE 
FN 


IRP MJ CREATE NAMED FIPE 
IRP MT CIOSE 


l IRF MT READ 
5 IRP_MJ_WRITE 


ne THENTI hbT TT 


DxFFFFFABOOTSSS060 FastIo Entry FPoints Supported 
Dx0000000000000000 
Dx0000000000000000 
Dx0000000000000000 

LEGACY DEIYER 
BEBOAntiHijack Unload Routine 
MREGISTRY ‘MACHINE\HARDWARE\DESCRIFIIONSYSTEN 


Dx0000000000000000 


16 -4 驱动 对 象 数 据 结 构 视 图 
VO 管理 需 调用 lopLoad Driver 因数 加 载 驱 动 模块 ,驱动 对 象 就 是 在 这 个 因数 中 创建 的 ， 


经 被 加 载 ， etal 


(2) 如 果 驱 动 尚未 被 加 载 , 则 将 驱动 的 可 执行 文件 映射 到 内 存 中 , 当然 虚拟 内 存 管 


VMM 也 会 检查 该 文件 是 否 为 合法 的 PE 文件 。 


(3) VO 管理 融通 过 对 象 管理 如 创建 该 驱动 的 驱动 对 象 并 初始 化 (驱动 对 象 存 放 于 非 


分 页 内 存 池 中 ) 。 


(4) VO 管理 器 设置 驱动 对 象 的 相关 域 值 ,包括 驱动 程序 人 口 .驱动 内 存 基 址 等 。 


(5) 将 该 驱动 对 象 持 入 系统 全 局 驱动 列表 中 。 


(6) WO 管理 大 调用 驱动 的 入 口哨 数 进行 相关 的 初 娘 化 。 


设备 对 象 


设备 对 象 DEVICE_OBJECT 代表 了 设备 实例 ,其 数据 结构 如 下 所 示 : 


typedef struct _ DEVICE OBJECT { 


CSHORT 
USHORT 
LONG 


struct DRIVER OBJECT 
struct DEVICE QBJECT 


struct DEVICE OBJECT 
struct IRP 

PIO TIMER 

ULONG 

ULONG 

volatile PVPB 


Type; 
SlzZer 
ReferenceCount:; 


*DriverObject; 
本 NextDevice; 


*AttachedDevicer 


+ Currentlirp; 
Timer; 
Flags; 


Characteristicss 


Vpb; 


/ /表明 设备 对 

// 旨 各 对 复 开 物体 大 小 

/ /设备 被 打开 的 句 棉 数量 ,驱动 被 卸载 时 以 此 
/ /来 判断 是 否 还 有 设备 被 打开 

/ /指向 关联 的 驱动 对 象 

/ /如 果 驱 动 对 象 关 联 了 多 个 设备 对 象 , 该 指针 
/ /指向 下 一 个 设备 对 象 : 
// 堆 县 挂 载 的 设备 对 象 ,通常 用 于 过 滤 型 驱动 
/ /当前 正在 处 理 的 IRP 

/ /定时 器 指针 

/ /标志 位 ,组 合 按 位 或 操作 

/ /属性 标志 位 ,组 合 按 位 与 操作 

/ /与 该 设备 对 象 相关 的 卷 参 数 块 指针 (VPB)， 


a 
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/ /代表 着 一 个 已 挂 载 的 卷 

PVOID DeviceExtension; / /设备 对 象 扩 展区 域 指针 ,其 大 小 和 内 容 由 驱 
/ / 动 程序 定义 

DEVICE TYPE DeviceType; / /设备 种 类 描述 

CCHAR StackSize; / /IRP 中 的 stacklocation 的 层 数 (最 小 值 ) 

union { 
LIST ENTRY ListEntry; // 用 于 挂 人 链表 
WAIT CONTEXT BLOCK Wcb; 

} QUuUeue? 

ULONG AliqgnmentRequirement; / /设备 在 大 容量 传输 时 需要 内 存 对 齐 以 加 快 传 
// 输 速度 ,该 域 值 表示 使 用 内 存 时 的 对 齐 方式 

KDEVICE QUEUE DeviceQueue; / /等 待 处 理 的 IRP 的 队列 

KDPC Dpce; / /延迟 过 程 调用 明 数 指针 

ULONG ActiveThreadCount; / /未 使 用 

PSECURITY DESCRIPTOR SecurityDescriptor; / /指向 安全 描述 表 

KEVENT DeviceLock; / /事件 同步 对 和 象 

USHORT SectorSize; // 当 设备 是 卷 设备 时 表示 卷 中 的 分 区 字 节 数 

USHORT Sparel ; / /未 使 用 

struct DEVOBJ EXTENSION * DeviceObjectExtension; // 设 备 对 象 扩展 指针 , 用 于 存储 设备 状态 信息 

PVOID Reserved; / /未 使 用 


} DEVICE OBJECT, * PDEVICE OBJECT; 


这 里 我 们 讲 一 下 DEVICE_OBJECT 结构 中 的 VPB 指针 。 一 般 来 说 , 块 存 储 设 备 部 是 与 
文件 系统 相关 联 的 ,一 个 块 设备 束 是 一 个 文件 卷 , 而 每 个 文件 卷 有 可 能 使 用 不 一 样 的 文件 系 
统 ( 如 NTFS FAT32 等 ) ,因此 这 类 块 设备 对 象 需要 通过 一 个 数据 结构 与 文件 系统 挂 钧 ,表示 
这 个 块 使 用 哪 种 文件 系统 进行 解析 ,文件 卷 参 数 块 VPB 就 是 这 样 一 个 数据 结构 。 

设备 对 和 象 保存 了 设备 的 第 规 信 息 , 而 设备 的 特殊 信息 则 保存 于 设备 对 和 象 结 构 的 扩展 区 域 
中 (与 驱动 对 象 的 扩展 结构 区 分 开 ) 。 这 个 扩展 区 域 是 由 创建 设备 对 象 的 驱动 程序 目 己 定义 
的 ,因此 每 种 设备 的 扩展 区 域 结 构 都 不 一 样 。 由 于 这 块 区 域 是 各 个 驱动 程序 通过 IO 管理 天 
创建 的 ,并 且 位 于 内 核 中 随时 会 被 访问 ,也 不 允许 缺 页 中 断 , 因 此 保存 在 非 分 页 内 存 池 中 。 

驱动 对 象 与 设备 对 象 的 连接 关系 如 图 16 一 5 所 示 ,横向 的 “本 层 设备 对 象 " 即 为 设备 链 ， 
纵 回 的 通过 AttachedDevice 和 AttachedTo 指针 串 起 来 的 即 为 设备 栈 , 多 用 于 驱动 堆 芭 或 驱动 
过 滤 场 景 。DEVICE_OBJECT 中 的 AttachedDevice 域 是 个 北 回 指针 , 指 回 更 上 层 的 设备 对 象 。 


而 设备 对 象 扩展 区 域 的 AttachedTo 域 是 个 南 回 指针, 指 回 更 下 层 的 设备 对 象 。 


DRIVER_OBJECT 


DriverObject 
AttachedDevice 


DriverObject 
本 层 设 一 
AttachedDevice 


DriverOblyect 
AttachedDevice 


| DriverObject 

| 
| “下层 设 

| se AttachedDevice 

| 
| | 
| 


图 16-S 设备 对 象 与 驱动 对 象 的 连接 关系 
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模 癌 的 设备 链 多 用 于 串联 同类 型 设备 的 多 个 实例 ,例如 系统 中 有 多 块 同 类 型 网 卡 的 场 
景 ,每 个 网 卡 就 是 一 个 设备 实例 ,但 却 都 共 至 相同 的 网 卡 驱动 程序 。 


16.1.3 ”内 存 描述 符 表 


内 存 描述 符 表 ( Memory Descriptor List, MDL) 是 一 种 特殊 的 数据 结构 ,可 以 在 物理 页 面 
中 映射 和 描述 在 内 核 缓冲 区 虚 存 空间 中 的 页 面 ,多 用 于 驱动 程序 与 用 户 态 进程 之 间 的 缓冲 
区 数据 读 写 ,其 本 质 就 是 “一 块 内 存 两 份 映 里 ”, 即 用 户 态 缓冲 区 的 物理 内 存 映射 到 内 核 态 空 
间 的 虚拟 地 址 中 ,如 此 一 来 一 块 物理 内 存 就 被 映射 到 两 个 空间 ,对 用 户 态 空间 的 谈 写 也 相当 
于 对 内 核 态 空间 的 读 写 ,提高 了 了 10 的 效率 。 这 种 方法 非 弟 适合 大 数据 块 的 交换 ,而 针对 小 
数据 量 的 频繁 读 写 ,LO 的 开销 就 不 可 忽略 不 计 了 。 

Windows 中 MDL 数据 结构 如 下 所 示 . 


typedef struct MDL { 


struct MDL * Next; / /指向 下 一 个 MDL 结构 

CSHORT Size; / /该 MDL 的 大 小 ,从 这 个 大 小 可 以 推算 出 MDL 后 面 的 数据 结构 的 数组 大 小 
CSHORT MdlFlags; / /标志 ,保护 属性 映射 方式 等 

struct EPROCESS * Process;  // 表 示 该 MDL 所 属 的 进程 

PVOID MappedSystemVva; // 若 映射 到 系统 空间 , 则 指明 了 MDL 在 系统 空间 映射 的 地 址 

PVOID StartVa; / /映射 的 虚拟 地 址 的 开始 页 面 的 基 址 ,该 基 址 是 内 存 页 面 对 齐 的 

ULONG ByteCount.; / /该 MDL 描述 的 内 存 块 的 字 节 数 

ULONG ByteOffset; / /该 MDL 映射 的 虚拟 地 址 的 起 始 地 址 在 StartVa 页 面 中 的 偏 移 值 


} MDL, * PMDL; 


在 MDL 数据 结构 的 后 面 还 紧 跟 着 一 个 PFN_NUMBER 结构 数组 ,每 个 PFN_NUMBER 结 
构 占 4 个 字 节 ,代表 了 物理 内 存 员 面 的 页 面 号 ,也 叫 页 帆 吕 (Page Frame Number,PFN) ,PFN_ 
NUMBER 结构 数组 中 的 页 帧 号 用 于 描述 MDL 缓冲 区 中 的 一 个 物理 页 面 。 从 MDL. 
ByteCount 域 可 以 推算 出 MDL 描述 的 缓冲 区 窗 盖 了 多 少 个 物理 页 面 。 要 注意 的 是 ByteCount 
只 是 描述 了 缓冲 区 少 盖 的 字 市 数 ,占用 的 页 面 数 则 是 4 KB 对 齐 的 ,哪怕 最 后 多 余 出 一 个 字 
节 , 也 要 占用 一 个 页 面 , 如 图 16 -6 所 示 。 

-MDL.ByteOfiset 
MDL.Start Va : 


| MDL.ByteCount 


page 


页 面 号 


虚拟 页 面 


PFN_ NUMBER 数组 
图 16-6 MDL 数据 结构 及 其 若干 域 的 视图 
总 的 来 说 ,内 核 态 与 用 户 态 进程 之 间 的 数据 交换 有 三 种 方式 : 
> 缓冲 方式 (DO_BUFFERED_IO) :创建 一 个 中 间 缓 冲 区 ,用 户 态 空间 与 内 核 态 空间 交 
换 数 据 的 时 候 , 以 该 缓冲 区 为 中 转 站 ,因此 每 次 该 写 都 会 涉及 两 次 内 存 拷 由 和 该 与 操 


PEN_NUMBER 


PFN NUMBER 


201 
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作 。 但 是 这 种 方式 是 进程 上 下 文 无 关 的 , 即 缓冲 区 读 写 的 双方 没有 必要 是 一 个 进程 。 
这 种 方式 比较 适合 少量 数据 块 的 交换 。 

> 直接 方式 (DO_DIRECT _IO ) :这 也 是 MDL 方式 ,创建 MDL 数据 结构 , 即 采用 一 块 物 
理 内 存 同 时 映射 到 用 户 态 空间 和 内 核 态 空间 ,因此 只 需要 一 次 内 存 拷贝 和 读 写 操作 。 
这 种 方式 也 是 进程 上 下 文 无 关 的 ,比较 适合 大 数据 块 的 交换 。 

> 其 他 方式 :将 用 户 态 内 存 缓冲 区 的 指针 通过 IRP 传递 到 驱动 程序 中 ,本 质 上 也 是 一 块 
内 存 同时 允许 用 户 态 空间 和 内 核 态 空间 读 写 ,也 只 需要 一 次 内 存 拷贝 和 读 写 操作 ,但 
这 种 方式 要 求 二 者 在 同一 进程 内 , 即 进程 上 下 文 有 关 , 这 在 大 多 数 驱 动 程序 中 是 很 难 
做 到 的 。 

在 Windows 中 ,MDL 的 创建 疯 数 为 IoAllocateMdl , 创建 完成 后 还 要 使 用 MmlInitializeMdl 
方法 对 其 进行 初始 化 ,而 MmBuildMdlForNonPagedPool 则 负责 为 MDL 后 面 的 PFN_NUMBER 
数组 赋值 , MmGetSystemAddressForMdl 用 于 获取 用 户 态 空间 缓冲 区 在 系统 空间 的 映射 基 址 。 

一 个 MDL 可 以 描述 一 个 页 面 内 的 缓存 ,也 可 以 描述 多 个 页 面 内 的 缓存 ,但 这 要 求 该 缓 
冲 区 是 连续 的 。 如 果 存 在 硅 十 个 不 连续 的 缓冲 区 , 则 要 用 多 个 MDL 来 描述 。MDL 结构 体 的 
域 中 有 Next 指针 ,用 于 将 IRP 内 的 缓冲 区 映射 揪 述 和 从 串 联 成 一 个 链表 。 当 然 ,物理 页 面 号 
不 一 定 是 连续 的 ,就 像 虚拟 内 存 页 面 的 连续 页 面 并 不 一 定 也 映射 到 连续 页 面 号 的 物理 页 
面 中 。 

16.1.4 1/O 请 求 包 


I/O 请 求 包 (1/O Request Packet,IRP) 是 IO 管理 需 与 驱动 程序 交互 的 信息 载体 。 当 上 
层 的 应 用 进程 调用 Windows API 进行 设备 读 写 控制 操作 时 ,Windows API 调用 系统 服务 因数 
将 这 些 请 求 传递 给 操作 系统 的 1/0 管理 器 ,1/0 管理 器 再 把 这 些 1/0 请 求 翻译 成 IRP 并 投递 
给 相应 的 驱动 程序 ,最 后 由 驱动 程序 调用 对 应 功能 码 的 派遣 果 数 。 当 操作 完成 时 ,IRP 的 完 
成 请 求 沿 看 IRP 的 StackLocation 顺序 逆流 而 上 , 回 上 层 层 调用 每 层 堆 栈 事 先 设 置 的 完成 图 
数 ,最终 回 到 IO 管理 需 。 

IRP 是 对 上 层 应 用 程序 WO 功能 的 翻译 ,是 IO 管理 器 和 驱动 程序 中 的 “特殊 语言 ”。 
其 类 型 也 对 应 了 应 用 进程 对 于 底层 设备 的 操作 要 求 的 类 型 ,而 这 些 操作 的 Windows API 就 
是 形 如 CreateFile ReadFile WriteFile 这 样 的 图 数 。 

IRP 的 操作 类 型 也 是 驱动 对 象 派 中 图 数 数组 的 下 标 。 例 如 ReadFile 图 数 通过 LO 管理 
器 会 生成 类 型 为 IRP_MJ_READ 的 IRP, 当 IRP 传送 到 驱动 程序 中 时 ,驱动 程序 在 派 遗 函 数 
数组 MajorFunction 中 寻找 下 标 为 IRP_MJ_READ 的 函数 ,并 将 这 个 IRP 作为 参数 传递 到 该 
图 数 中 执行 ,而 这 个 数组 又 是 存在 于 驱动 对 象 的 扩展 区 域 里 的 。 操 作 类 型 在 派遣 困 数 中 也 
叫 主 功能 号 ,对 应 地 还 有 个 子 功能 号 存放 在 IRP 首部 之 后 的 IO 堆栈 数据 结构 中 , 它 表示 派 
遗 滑 数 的 细 分 选项 ,例如 IRP_MN_REMOVE_DEVICE 就 是 IRP_MJ_PNP 的 子 功能 号 。 我 们 
可 以 观察 两 者 的 命名 规范 ,如 图 16 -7 所 示 : 
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> IRP_MJ_XXX 表示 主 功能 号 ( Major); 
> IRP_MN_XXX 表示 子 功 能 号 ( Minor)。 


-Battery 
由 - 局 Computer 
up Disk drives 
由 EE Display adapters 
-8 DIVWDACD-RDON drives 
自 - 册 9 ]IDCLASS 
OD fF HTREE\ROOTO 
-BY IDE ATA/ATAPI controllers 
由 -Op Keyboards 
央 - 1 了 ee and other pointing devices 
2 
辐 - 国 到 Hetwork adapters 
DB lxl llb/e/n Wireless LAN PCI 了 Ex] 
DB lxl llb/e/n Wireless LAN PCI Ex] 
DB lxl llb/e/n Wireless LAN PCT Ex] 
-DB Aventail VPN Mdapter 
加 本 Intel (R) 82579LN Gigabit Hetwor] 
OD BW Intel (R) 82579UI Gigabit Hetwor] 
-0B Intel () 82579LNM Gieabit Networ] 
… 口 本 WAN 微型 端口 (IP) 
一 器 醒 WAN 被 型 端口 IPF) - 了 lcAEee Core 
口 一 Wi 微型 端口 CP) - 数据 包 计 世 | 
-- 口 可 WA 微型 端口 (2TF) 
一 口 可 WAN 微型 端口 (PPPOE) 
口 至 WAN 微型 端口 让 FTF) 
口 杰 直接 并 行 
由 - 岗 Processors 
国 动 Sound, video and eame controllers 
-PP Storage volumes 
I System devices 
由 Universal Serial Bus controllers 
由 -时 一 ZhanefanDevice 


opert es 


Functions hdd minor | 


日 图 入 1 六 | 
[网 工 EF MJ CREATE 
IRP WJ CREATE HANED PIPE 
IRP WJ CLOSE 
IRP MJ _ BREAD 
一 了 轿 IRP_NN_HORMAL 
一 吧 IRP MY DPC 
一 加 IRP_NN_MDL 
Ww] IRF MH _ COMPLETE 
-加 IRF MN _ COMPRESSED 
-IW] IRF_NN_MDL DPC 
IRP NN COMPLETE MDL 
-A] IRPE MN COMPLETE MDL DFC 
IRP MJ _ WRITE 
| IEPF MJ QUERT IHFORNATION 
IRP WJ SET INFORNATION 
IBP MJ QUERT_ EA 
| IEPF MJ_SET ER 
IERP MJ] FLUSH BUFFERS 
IEP WJ QUERT YOLUNE INFOBRNATION 
IRP WJ SET _YOLUEE IHFORNATION 
IERP MJ] DIRECTORT CONTEOL 
| IRP MJ FILE STSTEN CONTROL 
IRP WJ DEYICE CONTEOL 
ITRP WJ IHNTERNAL DEYICE CONTROL 
IRP BT SHUTDOTH 
IRP BJ LOCE CONTROL 
IRP WJ_ CLEANUP 
IRP WJ CREATE NAILSLOT 
IBP WJ] QUERT SECURITT 
IRP WJ SET_SECUVEITT 
IRP MJ POWTER 
IBRP MJ STSTEN CONTEOL 
IBP MJ DEYICE CHANGE 


I TT TT Mm 下 Re 下 


加 局] 


国峰 图 辐 


图 同名 外 加 图 四 
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16 -7 无 线 网 卡 驱动 的 主 功能 号 和 子 功能 号 
这 些 功 能 号 是 由 IO 管理 器 根据 操作 类 型 统 


设置 到 IRP 中 的 ,通过 IRP 后 面 的 IO 


堆栈 结构 传递 给 驱动 程序 派遣 图 数 。IRP 的 类 型 可 参阅 表 16 -1。 


1. IRP 及 其 堆栈 数据 结构 
IRP 数据 结构 如 下 所 示 . 


typedef struct IRP { 


PMDL MdlAddress; 
ULONG Flags; 
union { 
struct IRP* Masterlrp; 
PVOID SystemBuffer; 


} AssociatedIrp; 
I STATUS BLOCK Iostatus: 
KPROCESSOR MODE RequestorMode,， 


BOOLEAN PendingReturned; 
BOOLEAN Cancel; 
KIROL CancelIrgl; 
PDRIVER CANCEL CancelRoutine; 
PVYOID UserBuffer:; 
union { 

struct 1 

union f 


/ /直接 TI7O 方式 时 ,该 指针 指向 用 户 态 空间 的 内 存 描述 符 表 
/ /对 驱动 程序 只 读 的 标志 


/ /关联 式 IRP 的 主 IRP : 
// 指 向 一 个 数据 缓冲 区 , 用户 态 缓冲 区 和 内 核 态 非 分 页 内 存 池 
/ /中 的 数据 交换 


//IO_STATUS_BLOCK 结构 体 , 驱动 完成 请 求 时 设置 该 域 

/ /指明 该 请 求 来 源 于 用 户 态 还 是 内 核 态 

/ /表明 最 低级 的 派 遗 函数 返回 了 STATUS_PENDING 

/ /表明 IoCcancelIrp 精 数 是 否 已 被 调用 

// 一 个 IRQL 值 , 表明 取消 自 旋 锁 是 在 该 IRQL 上 获取 的 

/ /取消 函 数 的 指针 

// 对 于 METHOD NEITHER 方式 的 IRP MJ DEVICE CONTROL 
/ /请 求 ,该 域 包 含 输出 缓冲 区 的 用 户 态 虚拟 地 址 


KDEVICE QUEUE ENTRY DeviceQueueEntry; 
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3truct 1 
PVOID DriverContext|[4|; 
}? 
上 
PETHREAD Thread; 


LIST ENTRY ListEntry; 
} Overlay; 
} Tail; 
} IRP, * PIRP: 


表 16-1 IRP 的 类 型 
IRP 类 型 类 型 描述 Windows API 发 起 者 
IRP MJ _CREATE 创建 一 个 普通 文件 对 象 CreateFile 


IRP MJ CREATE NAMED PIPE 创建 命名 管道 对 象 CreateFile 


上， 4 内 村 = 全 三 
IRP MJ_CLEANUP eh 名 柄 时 取消 挂 载 CloseHandle 


IRP_MJ_CLOSE 关闭 文件 对 象 句柄 CloseHandle 


IRP_MJ_DEVICE_CONTROL 设备 控制 操作 DeviceloControl 
控制 操作 (只 能 被 内 核 调 

用 ) 

IRP_MJ_QUERY_INFORMATION 获取 文件 的 长 度 GetFileSize 


IRP_MJ_READ 


IRP_MJ_WRIIE 


IRP_MJ_INTERNAL_ DEVICE_CONTROL 


IRP MJ SET_INFORMATION 设置 文件 的 长 度 SetFileSize 
IRP_MJ_QUERY_EA 获取 文件 的 扩展 信息 
IRP MJ SET EA 设置 文件 的 扩展 信息 CreateFile 


与 输出 缓冲 区 或 者 丢弃 输 | FlushFileBuffers/FlushConsole 
IRP_MJ_FLUSH_BUFFERS 与 笛 | 缓冲 区 或 者 丢弃 | PhabFileBufiee en 
人 缓冲 区 InputBuffer PurgeComm 
IRP_MJ_QUERY_VOLUME_INFORMATION 查询 磁盘 卷 信息 GetDiskFreeSpace/ GetFileType 
IRP_MJ_SET_VOLUME_INFORMATION 设置 磁盘 卷 信息 SetVolumeLabel 


查询 某 个 目录 下 的 文件 和 
IRP_MJ_DIRECIORY_CONTROL 河 系 目录 下 的 文件 和 ZwWUueryDirectoryFile 
子 目 录 信 息 


IRP_MJ_FILE_SYSTEM_CONTROL 文件 系统 控制 操作 DeviceloControl 
IRP_MJ_SHUTDOWN 关闭 系统 InitiateSystemShutdown 
IRP_MJ_LOCK_CONTROL 锁 控 制 请 求 

IRP_MJ_CREATE_MAILSLOT 创建 邮件 槽 

IRP_MJ_QUERY_SECURITY 查询 安全 描述 符 

IRP_MJ_SET_SECURITY 设置 安全 描述 符 


电源 管理 操作 


IRP_MJ_POWER 


: 
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为 鼠标 、 键 盘 等 提供 WMI 


IRP MJ_DEVICE_ CHANGCE 设备 状态 发 生 改 变 


IRP_MJ_SYSTEM_CONTROL 


IRP_MJ_QUERY_QUOTA 获取 配额 信息 CetOuotaState 
IRP_MJ_SET_QUOTA 设置 配额 信息 SetQuotaState 
即 插 即 用 消息 , 插 拔 操作 
IRP_MJ_PNP 发 生 时 被 触发 ,NT 式 驱 动 
不 文 持 该 消息 类 型 
一 个 IRP 是 从 非 分 页 内 存 池 分 配 的 可 变 大 小 的 数据 结构 ,包括 两 部 分 :IRP 首部 和 IO 
堆栈 。 其 实 上 述 IRP 数据 结构 只 是 描述 了 IRP 首部 ,包含 IO 缓冲 区 指针 IRP 某 些 函数 的 
指针 等 重要 人 信息。 紧邻 着 IRP 首部 的 高 址 部 分 即 IO 堆栈 结构 ,这 是 一 个 IO__STACK _ 
LOCATION 结构 的 数组 , 数组 大 小 由 设备 栈 中 的 设备 数量 确定 。 每 一 个 IO _STACK _ 
LOCATION 结构 都 保存 看 一 个 VO 请 求 的 参数 功能 码 0O 请 求 对 应 的 设备 指针 .TO 完成 
为数 指针 (IoCompletion Routine ) 等 信息 ,表示 每 一 层 堆栈 结构 都 对 应 一 个 栈 中 的 设备 对 象 ， 
每 个 设备 对 象 都 会 对 IRP 进行 处 理 ,并 且 只 人 允许 设备 对 象 访问 本 层 的 I0_STACK_ 
LOCATION ,如 图 16 -8 所 示 。 


IRP 首 部 设备 链 


IO TALK LOCATION|.-..-..-. 


DeviceObject 


IO_ STACK_ LOCATION 


DeviceOblect 
DeviceObject 


司 16-8 IO_STACK_LOCATION 与 设备 对 象 的 对 应 关系 


ID TALK LOCATION 


LO 堆栈 的 数据 结构 IO STACK LOCATION 如 下 所 示 ， 


typedef struct IO STACK LOCATION { 


UCHAR MajorFunction; //IRP 的 主 功能 码 

UCHAR MinorFunction; //IRP 的 子 功能 码 

UCHAR Flags; 

UCHAR Control; 

union { 

} Parameters; / /多 个 结构 体 的 联合 ,此 处 不 详细 描述 
PDEVICE OBJECT DeviceObject; /7 与 该 堆栈 单元 关联 的 设备 对 象 的 地 址 
PFILE OBJECT FileObject; //IRP 目标 文件 对 象 的 地 址 

PIO COMPLETION ROUTINE CompletionRoutine; //I/O 完成 函数 指针 

PVYOID Context,; 


} TO STACK LOCATION, #* PIO STACK LOCATION; 
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2. IRP 的 下 行 传 谴 流程 


在 一 个 IRP 中 ,上 层 驱 动 负责 为 下 层 驱 动 设 置 堆栈 位 置 指针 。 驱 动 程序 可 以 为 每 个 IRP 
调用 loGetCurrentStackLocation 方法 以 获取 指 回 其 目 身 堆栈 位 置 的 指针 ,上 层 驱 动 程序 需 调 
用 IoGetNextIrpStackLocation 方法 来 获得 指向 下 层 驱 动 程序 堆栈 位 置 的 指针 。 这 些 IRP 相关 
的 方法 如 表 16 -2 所 示 ,它们 都 是 由 IO 管理 硕 提供 的 。 


IRP 方法 
IoStartPacket 
loCompleteRequest 


loStartNextPacket 


loCallDriver 


loAllocatelrp 
lokreelrp 


loGretCurrentIrpStackLocation 


loMarklrpPending 


loGetNextIrpStackLocation 


loSetNextIrpStackLocation 


表 16 一 2 ”IRP 相关 方法 
将 IRP 发 送 给 StartIO 函数 ,插入 设备 IRP 队列 以 串 行 化 处 理 IRP 
IRP 处 理 完 成 
将 下 一 个 IRP 发 送 给 StartIO 函数 
将 IRP 传递 给 驱动 程序 
分 配 一 个 IRP 数据 结构 
释放 一 个 IRP 数据 结构 
获取 当前 调用 者 的 WO 堆栈 指针 
标记 IRP 堆栈 标志 
获取 下 一 层 驱 动 的 IO 堆栈 指针 
将 IO 堆栈 指针 压 人 堆栈 


上 层 驱 动 调用 IJoCallDriver 方法 将 IRP 回 下 传递 ,其 参数 DeviceObject 域 被 设置 为 下 层 
日 标 驱 动 的 设备 对 象 。 当 下 层 驱 动 完成 IRP 时 ,IRP 堆栈 中 的 完成 例 程 CompletionRoutine 
(只 能 由 上 层 驱 动 通 过 IoSetCompletionRoutine 方法 设置 ) 被 调用 ,LO 管理 硕 将 上 层 驱 动 设 
备 对 象 的 指针 传递 给 CompletionRoutine。 图 16 -9 描述 了 从 用 户 态 到 内 核 态 整体 的 IO 请 


求 走 问 。 


kernel32.dll DeviceloControl 


L/D 讲求 


ntdll.dll NtDeviceloControlFile 


IO 请 求 Ring3 


Ring0) 


ntoskrnl.exe NtDeviceloControlFile 


对 应 驱动 的 派 违例 程 
恒 16 -9 LO 请 求 的 流向 


综 上 所 述 ,IRP 的 处 理 流 程 是 这 样 的 (以 ReadFile 国 数 为 例 ) : 
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(1) Windows API 将 LIAO 请 求 透 传 给 IO 管理 器 。 

(2) WO 管理 需 将 IO 请 求 翻译 成 IRP 并 通过 设备 对 象 传递 到 驱动 对 象 的 派遣 曙 数 中 。 

(3) 派遣 国 数 将 IRP 按 设备 栈 回 下 传递 到 最 底层 驱动 ,最 底层 驱动 进行 处 理 , 读 取 网 卡 
或 磁盘 中 缓存 的 在 干 个 数据 包 。 

(4) 驱动 程序 从 IO 堆栈 逆流 向 上 返回 到 IO 管理 器 并 产生 IO 中 断 事 件 。 

(5) LO 管理 器 通过 中 断 响应 例 程 插 入 DPC(ISR 的 前 半 段 安排 了 后 半 段 的 执行 ) 。 

(6) DPC 从 驱动 的 缓冲 区 中 读 取 网 络 或 磁盘 数据 包 。 

(7) DPC 将 这 些 数据 包 返 回 给 应 用 进程 。 

从 上 述 描述 可 以 看 出 ,IRP 的 下 行 与 上 行 两 个 方向 上 是 严格 章 守 驱 动 堆 栈 顺 序 的 ,不 能 
跳跃 ,如 图 16 - 10 所 示 。 


每 一 层 的 主 功能 
函数 被 调用 


IRP 首 部 


[O_STACK LOCATION|T--…-=] 上 层 驱 动 IRP | IRP 
传 速 方 辐 | 返回 方向 
IO STACK LOCATION- 时 中 层 驱 动 
[IO STACK LOCATIONT--------e] 下 层 红 动 
每 一 层 的 完成 
函数 被 调用 


16 一 10 ”IRP 的 传递 和 返回 方向 
3. IRP 的 上 行 退 回流 程 
我 们 在 这 里 还 要 详细 讲述 一 下 IRP 的 完成 与 返回 。 
当 IO 请 求 完成 时 ,驱动 程序 要 执行 完成 图 数 ,将 IO 的 结果 返回 给 VO 操作 的 发 起 
者 ,这 是 完成 函数 loCompleteRequest 的 使 命 。 loCompleteRequest 有 以 下 两 种 被 调用 的 时 机 
> 如 果 是 同步 调用 方式 ,IO 完成 时 当前 线程 尚 在 主 功能 函数 的 执行 过 程 中 ,因此 
IoCompleteRequest 和 卫 接 在 主 功能 销 数 中 被 调用 ， 
> 如 果 是 异步 调用 方式 ,IO 完成 时 主 功能 函数 已 经 执行 完毕 ,当前 线程 可 能 在 其 他 上 
下 文中 ,IoCompleteRequest 需要 以 DPC 的 方式 被 异步 调用 。 
在 IRP 的 IO 堆栈 (IO_STACK_LOCATION 数据 结构 ) 中 有 个 CompleteRoutine 肾 数 指 
针 , 这 是 本 层 驱 动 程序 上 自我 设置 的 善后 函数 执行 的 一 个 渠道 。IoCompleteRequest 执行 时 , 除 
了 完成 通知 工作 ,也 会 从 下 和 同上 逐 层 调用 CompleteRoutine 因数 ,以 完成 各 层 驶 动 程序 上 月 已 设 
置 的 善后 工作 。 
最 后 , loCompleteRequest 通知 /0 管理 硕 本 次 LO 操作 已 结束 ,IA0 管理 硕 则 他 | 建 一 个 
LO 完成 的 APC 并 投递 到 发 起 IO 请 求 的 线程 中 ,在 线程 切换 的 间歇 这 些 APC 被 执行 ,IO 
的 完成 结果 被 回调 到 上 层 的 应 用 进程 中 。 这 也 是 异步 谈 写 的 一 般 返 回 步 又 。 
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针对 多 层 驱 动 扒 登 的 场景 ,每 一 层 驱动 都 会 对 应 一 个 设备 对 象 ,IRP 在 传递 的 过 程 中层 
层 穿 透 每 一 层 的 IO 堆栈 ,本 质 上 相当 于 逐 层 经 过 设备 栈 中 的 设备 对 象 。LO 堆栈 中 存放 
者 当前 IRP 的 主 副 功能 码 和 IO 完成 图 数 的 指针 ,请求 发 起 时 目 上 而 下 每 层 堆 栈 对 应 的 功 
能 遇 数 被 调用 ;请 求 完成 时 月 下 而 上 每 层 堆 栈 的 IO 完成 图 数 被 调用 。 

IRP 也 支持 取消 操作 ,例如 上 层 应 用 撤销 了 对 设备 的 某 次 读 写 。IRP 取消 是 由 系统 调用 
困 数 NtCancelloFile 完成 的 ,该 图 数 和 首先 调用 IoCancellIrp 取消 当前 线程 的 IRP 队列 中 的 所 有 
IRP ,这 些 IRP 是 保存 在 KTHREAD. FpList 中 的 ;之 后 要 多 次 扫 摘 这 个 队列 以 确保 全 部 IRP 
能 正常 取消 。 由 于 JIRP 的 取消 有 一 是 的 沛 后 性 ,调用 了 loCancellrp 并 不 一 定 能 保证 马上 从 
队列 中 移 除 IRP ,需要 一 定 的 执行 时 间 ,因此 应 该 多 执行 几 衣 以 确保 取消 操作 的 彻底 性 。 


16.2 NT 式 驱 动 模型 


NT 式 驱 动 古 不 支持 即 插 即 用 ( Plug-and-Play, PNP ) 功 能 的 老式 驱动 程序 ,这 类 驱动 可 以 
通过 INF 配置 文件 加 载 , 并 且 可 以 在 系统 中 以 系统 服务 的 形式 存在 。 
NT 式 驱 动 模型 是 Windows 中 最 古老 的 驱动 模型 , WDM 和 后 来 的 WDF 模型 都 是 基于 
NT 式 驱 动 模型 发 展 而 来 的 。NT 式 驱 动 包含 以 下 接口 函数 

> 驱动 程序 入 口水 数 DriverEntry: 这 是 由 驱动 模块 提供 的 入 口 函 数 , 人 钙 责 对 驱动 程序 
进行 初始 化 操作 ,相当 于 DLL 文件 中 的 DllMain。 该 人 口 函 数 一 般 是 在 系统 初始 化 的 
时 候 巾 系统 进程 (System ) 调用 的 ,当然 也 可 以 通过 系统 调用 NtLoadDriver 方法 动态 载 
人 后 调用 。 在 DriverEntry 中 既 要 创建 驱动 对 象 ,也 要 设置 印 载 图 数 指针 和 IRP 派遣 

> 驱动 程序 和 抒 载 函数 DriverUnload :这 是 由 张 动 模 块 提 供 的 函数 ,负责 介 载 驱动 .删除 
设备 .删除 符 喜 链接 等 。 所 谓 符 喜 链接 束 是 以 绝对 路 径 或 者 相对 路 径 的 形式 指 回 其 
他 文件 或 者 目录 ,是 文件 /目录 的 引用 ,也 是 设备 对 象 的 别名 , 既 可 以 被 用 户 态 应 用 进 
程 识别 ,也 可 被 内 核 态 驱动 程序 识别 。 因 此 用 户 态 进程 与 内 核 态 驱动 的 通信 在 无 法 
直接 访问 设备 对 象 的 情况 下 可 通过 符号 链接 实现 。 
同时 ,IO 管理 需 也 为 设备 对 象 提 供 了 才干 接口 : 

> 设备 对 象 创建 函数 IoCreateDevice: 这 是 由 内 核 (1/O 管理 带 ) 提 供 的 卫 数 ,人 负 贡 创建 
设备 对 象 。 设 备 对 象 的 类 型 为 IoDeviceObjectType( 注 意 不 是 设备 的 类 型 ,而 是 设备 对 
象 的 类 型 ) ,这 是 供 对 象 管理 需 使 用 的 类 型 。 

> 设备 对 象 删除 函数 IoDeleteDevice :这 也 是 由 IO 管理 器 提供 的 函数 。 

> 符号 链接 创建 函数 IJoCreateSymhbolicLink :这 是 由 LO 管理 器 提供 的 函数 ,用 于 将 设 
备 与 符号 链接 进行 绑 定 ,如 图 16 -11 所 示 。 

> 符号 链接 删除 函数 IoDeleteSymbolicLink :这 是 由 IO 管理 需 提 供 的 函数 ,用 于 将 设 
备 与 符号 链接 解除 绑 定 。 
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Type symLink 

Device 

SymbolicLink \Device\HarddiskO\DRO 
SymbolicLink VDevice\HarddiskVolumel 


SymbolicLnk \DevicevHarddiskVvolume2 
SymbolicLink \Device\HarddiskVolume3 
SymbolicLink \Device\HarddiskVolume4d 


图 16-11 磁盘 分 区 名 与 对 应 的 符号 链接 


NT 式 驱 动 模型 的 设备 插入 计算 机 系统 后 系统 不 会 有 任何 提示 ,因而 需要 用 户 自己 安装 
相应 的 驱动 程序 ,也 就 是 说 这 类 设备 不 是 “ 即 插 即 用 ”的 。 


16.3 ”WDM 驱动 模型 


WDM( Windows Driver Model, Windows 驱动 模型 ) 也 被 称 为 Windows 驱动 程序 模块 ,是 
从 Windows 2000 开始 就 被 引入 的 一 种 驱动 模型 。WDM 源 于 NT 式 模型 ,除了 支持 即 插 即 用 
功能 外 ,还 支持 WMI 和 电源 管理 功能 。 因 此 ,WDM 较 NT 式 模型 能 够 大 大 简化 驱动 程序 本 
号 的 硬件 检测 设备 对 象 创建 以 及 初始 化 等 工作 。 

WDM 的 驱动 一 般 是 分 层 的 ,对 应 的 设备 对 象 至 少 分 为 物理 设备 对 象 ( Physical Device 
Object,PDO) 和 功能 设备 对 象 (Function Device Object,FDO ) 两 部 分 ,有 是 FDO 附加 在 PDO 
a 

当 菜 个 外 设 锌 插入 计算 机 的 时 候 ( 例 如 鼠标 键盘 等 ) ,PDO 会 由 总 线 驱 动 (总 线 驱 动 一 
般 用 于 枚 举 设 备 ,负责 物理 层 的 通信 ) 日 动 创 建 。 但 是 PDO 不 能 独 日 使 用 设备 ,必须 有 上 层 
功能 软件 系统 的 配合 ,FDO 就 承担 了 功能 软件 的 职责 。 插 入 后 ,系统 提示 检测 到 新 设备 ,这 
时 需要 安装 WDM 驱动 程序 ,如 果 微 软 已 经 提供 了 该 种 类 设备 的 驱动 , 则 操作 系统 会 月 行 安 
汛 ,否则 会 联网 查找 对 应 的 驱动 程序 下 载 并 安 骤 。WDM 驱动 程序 除了 要 创建 TD0 ,还 要 将 
FDO 附加 到 PDO 之 上 ,如 图 16 - 12 所 示 。 

在 FD0 与 PDO 之 间或 在 FDO 的 上 层 可 能 还 会 有 一 个 甚至 多 个 过 滤 型 驱动 。 这 类 驱动 
一 般 是 由 第 三 方程 序 安 污 的 (例如 杀毒 软件 或 深度 包 检 测 软 件 每 ) ,其 作用 是 截取 流 经 FDO 
与 PDO 之 间 的 数据 包 并 进行 过 滤 ,要 么 增加 包 的 内 容 , 要 么 改变 包 的 内 容 , 要 么 监控 包 的 内 
容 , 如 图 16 -13 所 示 。 当 然 ,不 只 是 WDM 可 以 安装 过 滤 型 驱动 ,NT 式 驱 动 模型 也 可 以 安 
沪 ,进一步 说 ,只 要 具备 设备 对 象 并 有 昌 设 备 对 象 可 堆 芭 的 驱动 程序 都 可 以 附加 过 滤 型 驱动， 
因为 堆 装 本 质 上 是 设备 的 堆 闭 。 
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-POO VDevicevO0000047 - [RootLEGACY WANARPW6] = 
-PDO ‘\Device\00000048 - [Root\LEGACY WDFO1000] 
-PDO Devicee\00000049 - [Reot\LEGACY WFPLWE] 
-PDO ‘Device\0000004a - [RootLEGACY WUDFPA] 
-POO DewicevOO0o000d4b - [Root\mssmbies] 
FDO Mtached: (unnamed) - \Drivervmssmbios 
-PDO ‘Device\0000004e - [Reot\MS_AGILEVPNMINIPOI 
FDO ‘\Device\NDMP7 
-PDO \Device\0000004d - [Root\MS_L2TPMINIPORT] 
FDO ‘\Device\NDMPS 
-POO MDewicevO000004e - [Root\MS_NDISWANBH] 
FDO ‘\Device\NDMP9 
-PDO \Device\0000004f - [RootMS_NDISWANIP] 
LFDO ‘\Device\NDMP10 
-POO VDewicev00000050 - [Root\MS_NDISWANIPVG) 
FDO ‘\Device\NDMP11 
-PDO ‘\Device\00000051 - [Root\MS_PPPOEMINIPORT] 
FDO ‘Device\WNDMP12 
-PDO ‘\Device\00000052 - [Root\MS_PPTPMINIPORT] 
FDO ‘\Device\NDMP13 
-PDO \Device\00000053 - [Root\MS_SSTPMINIPORT] 
FDO ‘\Device\WNDMP14 
-PDO ‘\Device\00000054 - [Root\RDPBUS] 
FDO ‘\Device\RdpBus 
-PDO ‘Device\00000055 - [Root\RDP_KBDI] 
| -FDO Attached: (unnamed) - \Driver\TermDD 
-PDO \Device\00000056 - [Root\RDP_MOU] 
HPDO \Devicev00000057 - [Root\SCSIADAPTER] 
日 -PDO ‘Device\00000058 - [Root\SMDRIVER] 
1 PDO ‘Devica\00000059 - [Reot\SYSTEM] 
PDO ‘Device\0000005a - [Root\UMBUS] 


Dowi ce O00O0db Type: [FTLE DEVICE CONTROLLER 


Driver\PnpNanager Saceurity Attributes | 
DaFFFFFABODBAFIESD FSDbeviee: Do000ou0o000000000 | Dye 
Fe | 


Doviecs Hame. 
Driver Name. 
Dewiee Objeet 
Driwver Objeat: 


Mext 加 EL 站: 


DxFFFFFASOOGBIDNETO | Dovwies Dpe Boutine: 
Stauek Size; 及 Dpe Wumber: 


Handle Count: 面 Ali gimernt : Den CharactaristicdDad0 


Pointer Cownt: Vb: [ae0000000000000000 plags: Dzi040 
站 
0 


Current Lrp: EA 


Deni ne Te DFFFFFNSOOBAFLESO 


Creation Time: 
丰 亿 区 总 巨 有意 纪 


Int erpretegd Dowiee Characterlsties. 
人 


下 ma ati Ep, TE 
Deviea Id: Root\mssmbios 
Tnst unc 0000 
Vendor; 

Hair dwire Tds: 
FRONT \mssabi os 


Tnterpreted Dewice Flags: 
Rls ENWMMERATED DEVICE 


Compatilble 


NT 


Rew ei eol FF WakeFromh0 厂 HuardwureDisable 
厂 Devi eee 厂 UaiaaaID - SurpriseRenowal0] [WakePromDl | NonDynamie 
[LockSupported [FF Removable TF SilontInstall 厂 WakeFromIe [WarmEieetSupporte 
[TF BjiactSupporte ddrese [eeEEEEEEEE LE vasTr on sp ION 
SystemWalka:， FowerSystemlnspecifiet UlNumber: DefffEEEEE 
DiLateneay: Vad Devicalalke: PowerDewvicelnspecifid 
lelateney: bad iLat eney: 


Dovice Capabiliti [者 
厂 Dewi eeDl [DockDewice 


DovicaState: 
Powerlewicelrepeei ed 
FowerDewi coef 
Fowerlewi el 


Res ee 


Hear dyar e: Driwer Node 


DriverHode 0 

TIRE file is C:\Windows\IHF machine. inf 

Tnf section is NSSsHBIOS DRY 

Driver descripiion is Microsoft System Naragement EIDNS Driver 
Er 淮 系 缔 设 着】 


16 一 12 PD0O 与 FDO 的 附加 关系 


FilterF DO 


FilterF DO 


AttachedDevice 


AttachedDevice 


AttachedDevice 


滤 型 驱动 程序 创建 


WDM 驱 动 程序 创建 


过 涯 型 驱动 程序 创建 


总 线 驱 动 程序 创建 


16 一 13 ”PDO FDO 与 过 滤 型 驱动 之 间 的 附加 关系 


如 图 16 -14 所 示 ,辅助 功能 驱动 (AFD ,负责 Windows 系统 中 socket 机 制 的 实现 ) 创建 
的 设备 对 象 就 被 网 络 监测 软件 附加 了 过 滤 型 驱动 的 设备 。 


-DAY Drver\360AntiAttack 
-DRY VDriver360AntiHacker 
-DRY \Driver\360AntiHijack 
--DRY \Drivern\360Camera 
-DAY \Driver\360netman 
--DRAY \Drive\360gqpesy 
-DRY Driver\360reslitdd 
-DRAY \Driver\360Sensor 
-DRY Driver\ACPI 
-DRY VDriverwACPL HAL 
-DRY \Driver\AFD 
自 一 DEV ‘Device\hd 
tached: (unnamed) - \Drive\360AntiHack 
.DAY WDrivervamdxata 


Dewice Name: | 


Type: [FILE DEVICE MANED PIFE 

Soc ltr httribmtas | 
Deviee Objeet FREEEFFNSOGT65IEEO Pspeviee: [Ox0000000000000000 | hpe 站 
了 riwar Objoct: | OFFFFFASONTSEDETD | 了 iawri eg bxll Dpe Routine: [De0000000000000000 
Nasxt Dewiee: |OFFFFFAAOOTSTISO0 |Stack Sirze: EB Dpc Honbar: Fa . 
Hendle Coent: i Mi grmant.: nan Characteristi edxD) 
Pointer Count: B Vpb: Dx0000000000000000 plags: bx15 
Craation Tima: DINOLI/TO 06-:00:00 Referenees: 由 Current Irp: Dx0000000000000000 
tLehgd 0000000000000000 | Seetor 0 UieFFFFEABOOTEBS21EE2D 


td Dewiee Char eteristiies: 


Driwver Mame: Lriwer nt 1 Hoaelar 


Denine Dew 


Tmterpreted Dewiece Flage: 
DIFECT 10 
DEVO_INITIALITED 


Tnter 


四 
由 
由 
四 
由 
由 
四 
四 
日 


Eroamer atiomn Infeormati on 


过 滤 型 驱动 


|16—14 
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在 多 层 设备 对 象 体系 下 ,每 个 IRP 都 有 IO 堆栈 (IO_STACK_LOCATION ) 与 设备 对 象 相 
对 应 ,也 就 是 每 一 层 设备 对 象 部 对 应 IO 堆栈 的 一 层 , 因 此 纵 回 有 几 个 设备 对 象 就 有 几 展 L/ 
0 堆栈 ,堆栈 中 存放 了 请 求 的 主 副 功能 码 , 每 一 层 的 驱动 程序 的 功能 函数 也 只 处 理 对 应 层次 
的 IRP 堆栈 ,并 且 每 一 层 堆栈 部 有 权力 更 改 下 一 层 堆栈 的 功能 人 码 。 
WDM 源 于 NT 式 驱 动 模型 ,与 NT 式 驱 动 类 似 ,WDM 驱动 也 包含 以 下 人 口 国 数 : 
> 驱动 程序 入 口 函 数 DriverEntry: 与 NT 式 驱 动 一 致 , WDM 驱动 的 人 口 函 数 也 是 
DriverEntry ,但 该 人 口 图 数 不 再 涵 闭 设备 创建 和 附加 功能 ,这 部 分 功能 放 到 了 
AddDevice 图 数 中 。 由 于 WDM 支持 即 插 即 用 功能 ,因此 也 需要 在 派 遗 浮 数 数组 中 设 
置 IRP_MJ_PNP 元 素 对 应 的 派 遗 商 数 。 
> 设备 对 象 创建 函数 AddDevice: 该 函数 是 WDM 驱动 所 独 有 的 ,是 DriverEntry 函数 在 
驱动 对 象 结构 的 扩展 区 域 DriverExtension 中 设置 的 ,在 DriverEntry 执行 完成 后 该 图 数 
被 调用 。AddDevice 创建 功能 设备 对 象 (FDO) ,并 将 其 附加 到 总 线 驱 动 创 建 的 物理 设 
备 对 和 象 (PDO) 之 上 。 
> 驱动 程序 秋 载 函数 DriverUnload :该 限 数 在 WDM 驱动 中 的 功能 非常 信 单 ,主要 是 释 
放 在 Driverk.ntry 中 申请 的 内 存 等 资源 。 但 是 删除 设备 和 删除 符号 链接 的 工作 不 再 由 
> IRP_MJ_PNP 派 中 函数 :设备 与 符号 链接 的 删除 是 通过 IRP_MN_REMOVE_DEVICE 
子 功 能 码 对 应 的 处 理 逻 辑 实现 的 。 设 备 被 番 载 的 时 候 ,PNP 管理 需 回 驱动 程序 发 送 
IRP_MJ_PNP( 子 功能 码 为 IRP_MN_REMOVE_DEVICE ) 的 IRP, 对 应 的 派 遗 函数 会 进 
行 设备 和 符号 链接 的 删除 。 注 意 ,此 时 删除 的 是 FDO 而 非 PDO,PDO 是 由 总 线 驱 动 
创建 的 ,也 理应 由 总 线 驱 动 删除 。 


16.4 WDF 驱动 模型 


WDF( Windows Driver Framework ,Windows 驱动 框架 ) 是 Windows 最 新 的 驱动 框架 模型 ， 
也 是 一 种 面向 对 象 的 事件 驱动 机 制 。 微 软 从 Windows Vista 开始 支持 WDF 驱动 模型 , 它 目 
前 已 成 为 Windows 驱动 开发 的 主流 选择 。 

WDF 豫 动 模型 分 为 内 核 模式 驱动 框 染 (KMDF) 和 用 户 模 式 驱 动 框 洪 CUMDF ) 两 类 ,分 
别 对 应 了 DLL 和 SYS 两 种 驱动 载体 形态 。 与 此 相对 应 地 , Windows 也 将 一 些 低速 外 设 的 驱 
动 挪 到 了 用 户 态 空 间 。 在 NT 式 驱 动 模 型 和 WDM 驱动 模型 中 ,驱动 程序 一 般 是 在 内 核 态 空 
加 的 ,但 是 从 WDF 驱动 模型 开始 ,驱动 也 可 以 存在 于 用 户 态 空间 了 ,设备 驱动 程序 的 开发 门 
槛 也 由 此 大 大 降低 。 

其 实 , 化 索 为 简 始 终 是 人 们 追求 的 目标 ,如 果 条 件 人 允许 大 可 不 必 把 所 有 驱动 都 集中 于 内 
核 态 空间 ,这 种 “ 双 态 并 存 ” 也 是 WDF 与 之 前 两 种 模型 的 显著 差异 。 相 较 于 WDM,WDF 日 
己 实现 了 电源 管理 \PNP 等 功能 ,驱动 程序 本 身 不 需要 对 此 过 多 关注 ,因此 开发 更 简单 了 。 
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16.4.1 KMDF 


WDF 驱动 模型 在 Windows 中 的 具体 实现 是 Wdf01000. sys 模块 ,该 模块 也 创建 了 一 个 名 为 
KMDF0 的 内 核 功能 设备 对 象 (FDO) ,如 图 16 -15 所 示 ,而 对 应 的 物理 设备 对 象 可 见 图 16 - 16。 
WDF 继承 于 WDM ,因此 模型 本 身 也 分 为 FDO 和 PDO 两 部 分 。 同 时 ,WDF 模型 还 具有 
以 下 特点 : 
> 向 前 兼容 ,WDF 模型 兼容 Windows Vista 以 前 版 本 的 操作 系统 
的 WDF 模型 的 驱动 。 
> 基于 对 象 编程 ,有 一 个 基本 对 象 ,其 他 诸如 驱动 对 象 .设备 对 象 .I/O 请 求 对 象 .队列 对 
象 等 都 是 基于 该 基本 对 象 做 的 派生 和 扩展 ,上 且 具 有 良好 的 封装 和 设备 驱动 接口 
( Device-Driver Interface , DDI) ,更 加 符合 面 回 对 象 编 程 的 思想 。 


,也 就 是 羔 容 这 些 版 本 


DRY DrivemTPM 

DRV ‘\Drwver\TPPWRIF 
=" DRY ‘\Drver\itunnel 

DRV ‘\Drver\umbus 
一 DRV ‘\Drver\usbccgp 

DRY ADrrvervusbwidee 

DRV MDrverwvdrvroot 

DRV ‘\Driver\VgaSave 

DRV VDrmvermvclmgr 
-DRV VDriverwvolmgrx 
DRY ‘Drverwolsnap 
DRV \Drverwifibus 
. = DRY \Drvervwififlt 
-DRY \Driver\Wanarpv6 
: DEY \Device\WANARPV6 

-DEV \DeviceVWWANARP 
DRY ‘\Driver\Wdf01000 

DEY \Device\KMDFO 


Driver Hame: 
Load Address: 
Driver Size: 
Hanidle Count: 


Driver\Was0lono Major Function Codes Supportied: 
DxF FFFF88000 ESE000 


RE er nees: 
httributes: 
Driver Objeet.: 
FastIo Dispateh 
startIo Entry 

hdd Dewvice Entry 
Flags: 

Service Hame: 
Har dw are Database: 


ES 
ES 
0 FastIo Entry Foints Supported: 
#0000000000000000 
x0O00000000000000 
x0000000000000000 
LEGACY DRIYER 
mdtol000 Umiload Routine DxFFFFFS8000ED1310 
MREGISTRY\MACHINE\MARIWARE\DESCRIFTIOMNSYSTEN 


六 图 -图 - 力 - 转 - 田 - 困 - 力 - 力 - 田 


Dewvice List: 


Device Name |Device Object | Nandles |P...|Rets |amta.. lrsn | 


‘Device\ENDFO DwFFFEFFA... 


-PO0 ‘De 


-P00 \Device\00000030 - 
-PDO MDewiceD0000031 - 
-一 PPDODO ‘Devica\00000032 - 
-一 PPDDO Devica\00000033 - 
PDO MDewiceDo000034 - 
-—PDO MDevicev00000035 - 
-—PDO Device\00000036 - 
-PDO Devica\00000037 - 
-PDO MDewicev0o000038 - 
一 PPDDO MDewicevD0000039 - 
一 PDDO MDewicev0000003a - 
一 上 DOD WDevca\000003b - 
-一 OO MDeweevD0000003c - 
-一 TOO Devica\0000003d - 
一 人 品种 \Device\0000003e - 
一 DO NMDewicevDo00003f - 
-一 DO Devica\00000040 - 
一 人 PDDO VDevicevDo000041 - 
-PDO WDevica\00000042 - 
-一 及 DO Devica\00000043 - 
一 PPDDO MDevicevO0000044 - 
:=PDO Devwcea\ 0000045 - 
PDO DewicevDO000046 - 
-FDO \Devica\00000047 - 
-一 上 DO ‘Devica\00000048 - 


IRootNLEGACY | PASSGUARD] 
[Root\LEGACY PCW] 
[Reot\LEGACY PEAUTH] 
[Roeot\LEGACY PSCHED] 
[RootLEGACY_ QQPROTECTX64] 
[Roeot\LEGACY_ OWAVEDRY] 
[Rocot\LEGACY RDPCDDI] 
[Roeot\LEGACY ROPENCOD] 
[RectLEGACY RDPREFMMIP] 
[RootLEGACY RSPNDR] 
[ReoctLEGACY SECDRV] 
[Root\LEGACY_SsPLDR] 
[RootALEGACY_STORFLT] 
[Reot\LEGACY SYMNAMETSMAI] 
[Root\LEGACY_TCPIP] 
[RoomLEGACY TCPIPREG] 
[ReGtALEGACY TOX] 
IReGtLEGACY TPPWRIA 
[RootLEGACY_UTDRW] 
[Root\LEGACY VGASAVE] 
[Root\LEGACY VOLMGRA] 
[RootLEGACY VOLSNAP] 
[Root\LEGACY VWIFIFLT] 
[Root\LEGACY WANARPVYE] 
RooMLEGACY WDOFO1000] 


重 : ITILE_IEVTICE_COMT ROLLER 


Davice 了 lang: NDevice\dO000043 Ty 
DriveriFnpNanager 上 Security Attributes | 
Dewiee Objeet DEFFFFTFASOO6ADEEBO ~ Feleviece: Dn IT 一 
Driwver Obijeet: Dewi ee 0Dz0000000000000000 
Next Device: Stack Sire: 
Handle Count: | i 
Pointer Cont:BE 和 | OO Flugs: 
Creation Time: DI/OLAO 6:00:0m0 Refarences: Curraent Irp: 


Attached mx0000000000000000 | Secter 0 


开 吉 七 而 下 下 于 剖 炒 而 二 四 耐克 1 下 二 苇 瞩 闪 F 疙 己 七 而 站 二 到 二 1 GE 
re 


Brimer et on Lntormeat sa 
Devias Id: Koot\LEGACY WIFILOND 
Tnstance nm 
Veandor: OO 
Har yars Lds: Conpatible 


Driver Name: 


[7 Stereo 
Delodn 
maon00on0on0on00on 


DeFEFFEFABOOEADEBBED 


Di Dev 


Dawice Capabilities.: 

[DeviceDl FF Woelawicg 「 Rawhewi ceed 

FF Deviecelz FF Wi geIlh 5 Surpri seRemowald] 
厂 LeakSapperted [FF Benowable FT SilentInstall 

厂 EjectSupporte adress DrEFEEEEEEF 略 


SystemYake: PorerSystenlnspecifiet UMNusber. DfEEFEEFE 
DiLateney: DaD Devicelake: Foperlewviecelnspeei Fia 


DeLat eney: Da DILatency: 


5 NardrareDisable 
「 Nonlynamie 

FE WarmEiectSupporte 
「 WoDi splayInUI 


DewieeState' 


Fower Dewi eelnepeeirl ed 
PowerDewi cab 
Powerlewi cel3 


FF BakeFronD0 
三 时 akeFromDl 
FF 和 ageFromTe 


图 16-16 WDF 模型 的 物理 设备 对 象 (PDO) 
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> WDF 驱动 模型 中 的 对 象 一 般 对 应 于 WDM 驱动 模型 中 的 某 数 据 结构 ,例如 WDF 驱动 
模型 中 的 VO 请 求 对 象 WDFRequest 相当 于 WDM 驱动 模型 中 的 IRP。 
> WDF 驱动 模型 通过 引用 计数 的 方式 管理 所有 对 象 的 生命 周期 。 
> WDF 驱动 模型 自己 实现 了 即 插 即 用 和 电源 管理 功能 ,开发 驱动 程序 时 这 部 分 功能 可 


以 由 模型 代劳 。 
> WDF 驱动 模型 通过 消息 队列 方式 实现 了 IO 请 求 的 串 行 化 。 
下 面 我 们 以 内 核 模式 的 WDF( KMDF) 为 例 来 考察 WDF 驱动 模型 的 结构 ,其 总 体 架 构 如 


图 16 一 17 所 示 。 


内 核子 系统 (MO 管理 器 ) 


WDF 内 核 框架 内 部 分 发 函数 ， 
(框架 上 边沿 ) 


和 上 


”框架 对 象 | 象 
计时 时时 时 ET 调 


内 部 分 发 图 数 
! (框架 下 边 褒 ) 


PNP/ 电 源 
模块 


驱动 /设备 | 


图 16-17 KMDF 的 总 体 架 构 


该 驱动 模型 的 运行 过 程 是 这 样 的 . 

(1) 用 户 程序 通过 Windows API 进行 IO 操作 和 调用 ,LO 管理 带 通 过 对 应 的 系统 调用 
将 LO 操作 翻译 为 IRP 下 发 到 WDF 内 核 框 架 。 注 意 ,O 管理 硕 与 WDF 驱动 之 间 的 交互 
依然 是 通过 IRP。 

(2) WDF 内 核 框架 收 到 IRP 后 通过 分 发 函数 将 其 分 发 给 WDF 内 核 框 架 内 的 IO 相关 
模块 对 和 象 模块 .PNP 模块 或 电源 模块 。 

(3) 上 述 模块 收 到 IRP 后 将 其 转化 为 WDF 驱动 模型 内 部 的 IO 请 求 对 象 结构 


i 
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WDFRequest 并 分 发 给 对 应 的 WDF 驱动 ,WDF 驱动 再 通过 内 部 分 发 浮 数 将 其 转发 给 更 下 层 
的 驱动 或 设备 。WDF 驱动 是 存在 于 WDF 驱动 模型 内 部 的 并 且 是 与 各 个 外 设 相关 的 ,通过 
DDI 接口 与 WDF 驱动 模型 内 部 通信 ,也 可 以 通过 系统 调用 与 内 核 通 信 。 

(4) 当 事 件 发 生 时 (例如 读 写 事件 完成 ) 通过 回调 因数 通知 到 WDF 驱动 ,WDF 驱动 再 
通过 WDF 驱动 模型 的 上 边沿 接口 返回 给 1/0 管理 需 。 

KMDF 驱动 照样 也 有 和信 口 国 数 DriverEntry ,其 作用 与 WDM 驱动 的 入 口 商 数 一 样 。WDF 
驱动 要 回 WDF 驱动 模型 注册 事件 回调 函数 EvtDriverDeviceAdd ,该 图 数 的 作用 也 相当 于 
WDM 驱动 中 的 AddDevice ,在 系统 发 现 新 便 件 插 和 人 时 被 调用 ,用 于 创建 设备 对 象 .ZO 队列 
对 象 与 设备 接口 等 。 

WDF 是 事件 驱动 的 框架 ,事件 回调 限 数 用 于 啊 应 驱动 程序 接收 到 的 IO 请 求 。 同 时 ， 
驱动 程序 也 会 创建 奋 干 IO 请求 队列 用 于 持久 化 和 串 行 化 VO 请 求 ,这 些 IO 请 求 队列 是 
与 每 个 WDF 设备 相关 的 。KMDF 驱动 可 能 还 包含 即 插 即 用 和 电源 管理 的 回调 函数 ,在 WDF 
处 理 了 即 插 即 用 和 电源 事件 以 后 返回 给 KMDF 驱动 一 个 回调 通知 。 

WDF 驱动 模型 中 的 对 象 是 具备 父子 关系 的 ,这 不 同 于 面向 对 象 语言 中 的 基 类 与 派生 
类 。WDF 驱动 模型 中 的 父 对 象 可 以 控制 子 对 象 ,而 删除 父 对 象 时 , 父 对 象 会 自动 将 自己 的 
子 对 象 都 销毁 ,因此 其 生命 周期 管理 也 比较 方便 。 在 这 些 对 象 中 ,驱动 对 象 是 所 有 WDF 对 
象 的 根 对 象 ,代表 了 加 载 到 系统 中 的 驱动 模块 ,因此 无 论 有 多 少 设备 使 用 该 驱动 ,都 只 有 一 
个 根 驱动 对 象 。WDF 模型 中 对 象 的 种 类 及 其 具体 的 关系 图 谱 如 图 16 一 18 所 示 。 


WDFLOOFKASIDE 


WDFCOLLECTION ( 根 对 象 ) 确定 的 父子 关系 


WDPFRKEY 
WDFWAITLOCK ~ 
WDFSPINLOCE 


WDPFSTRING WDFDEVICE 


WDFREQUEST 


驱动 创建 的 WDF 对 象 ~ WDFQUUE 
WDFUSBDEVICE WDFDPC 


WDFTIMER 
WDFUSBPIPE WDFWOREKITE M 
WDFDMAENABLER 
WDFINTERRUPT 


WDFIOTARGET 
WDFCHILDLIST 
WDFFILEOQBJECT 


WDPFWNIINSTANC 


WDFTRANSACTION 


WDFCOMMONBUFFER WDEWMIPROVIDE 


WDFREQUEST 
用 于 队列 传输 的 
WDE 对 象 


图 16-18 WDF 驱动 模型 对 象 的 种 类 及 其 关系 图 谱 
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16.4.2 UMDF 


针对 用 户 态 模式 的 WDF( UMDF) ,Windows 增加 了 反射 硕 (reflector ) 机 制 ,用 于 将 已 经 
“陷入 ”内 核 态 空间 的 IRP 反射 回 用 户 态 空间 的 VO 驱动 进程 。 增 加 反射 需 是 由 于 Windows 
固有 的 驱动 框架 的 限制 造成 的 ,因为 历史 上 驱动 程序 和 IRP 总 是 处 于 内 核 态 空间 的 ,VO 管 
理 带 在 内 核 态 空间 生成 IRP 后 不 需要 里 空间 即 可 和 直接 下 发 给 驱动 程序 ,但 现在 要 把 驱动 程 
序 安装 在 用 户 态 空间 ,而 IO 管理 硕 仍 然 清 留 于 内 核 态 空间 ,因此 要 把 代表 IO 请 求 的 IRP 
下 发 给 驱动 程序 就 必然 存在 一 个 跨 空间 的 问题 ,也 就 是 要 从 内 核 态 空间 跨越 到 用 户 态 空间 。 
反射 器 就 是 用 于 这 个 跨 空间 操作 的 。 

反射 硕 的 使 用 也 非常 简单 :用 户 态 进程 调用 Windows API 癌 LO 管理 硕 发 送 LO 请 求 ， 
内 核 态 的 IO 管理 需 将 此 请 求 翻 译 成 IRP 后 反射 回 用 户 态 的 VO 服务 进程 ,该 服务 进程 就 
是 我 们 说 的 UMDF 模型 驱动 进程 。 反 射 过 程 如 图 16 - 19 所 示 。 


应 用 进程/ 


中 间 件 驱动 管理 器 


Win321O 
ARI 


用 户 态 空间 


内 核 态 空间 


’ 驱动 管理 器 \\ ， 
] 控制 对 象 。 ， 


内 核 模式 驱动 


辐 16 一 19 ”UMDEF 的 反射 过 程 


在 图 16 - 19 中 ,驱动 主持 进程 作为 驱动 管理 器 的 子 进程 ,为 用 户 模式 驱动 提供 运行 环 
境 , 相 当 于 用 户 模式 驱动 的 容器 。 一 个 驱动 管理 器 可 以 创建 和 管理 多 个 驱动 主持 进程 的 实 
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例 , 一 个 驱动 主持 进程 只 能 运行 一 种 设备 的 用 户 模 式 驱动 及 其 过 滤 驱 动 ( 驱动 栈 )。 各 个 应 
用 进程 /中 间 件 通过 IO 管理 希 和 反射 希 将 请 求 转发 到 对 应 的 驱动 主持 进程 ,驱动 主持 进程 
髓 将 请 求 转发 到 对 应 的 用 户 模 式 驱动 设备 堆栈 的 最 项 层 设备 。 用 户 模 式 驱 动 可 以 耳 接 结束 
请 求 , 也 可 以 将 请 求 转发 到 反射 希 , 由 反射 希 转 发 到 内 核 醒 式 驱 动 中 继续 处 理 。 
由 于 驱动 程序 处 于 用 户 态 空间 ,因此 UMDF 驱动 具有 以 下 优点 : 
> 加 固 了 操作 系统 的 稳定 性 。 运 行 于 内 核 态 空 间 的 驱动 一 旦 崩溃 ,就 会 产生 BSOD( 死 
亡 蓝 屏 ) ,整个 系统 必须 重新 局 动 才能 恢复 正常 。 但 运行 于 用 户 态 空间 的 进程 仅 能 访 
问 用 户 态 空间 ,其 朋 演 最 多 影响 的 是 本 进程 而 不 会 影响 到 整个 系统 中 其 他 的 进程 。 

> UMDF 驱动 无 需 考虑 运行 级 别 .线程 上 下 文 等 复杂 问题 ,并 且 使 用 用 户 态 调试 硕 即 可 

调试 ,开发 门 覃 更 低 。 

UMDF 驱动 一 样 也 提供 即 插 即 用 电源 管理 输入 输出 等 功能 ,并 且 也 可 设置 VO 队列 ， 
但 不 能 处 理 中 断 .不 运行 DMA 机 制 ,也 不 能 目 由 使 用 内 核 的 种 种 资源 。 

UMDF 由 一 系列 协同 运行 的 对 象 组 成 ,对 象 的 层级 关系 如 图 16 -20 所 示 。 用 户 模 式 驱 
动 可 以 创建 和 使 用 这 些 对 象 ,UMDF 也 为 这 些 对 象 定义 了 耕 干 方法 ,在 UMDF 中 对 象 和 方法 
都 是 基于 COM (组 件 对 和 象 模 型 ) 的 ,由 于 每 个 接口 都 继承 于 Iunknown, 因此 默认 也 支持 
QueryInterface .AddRef 和 Release 方法 。 


图 16-20 ”UMDF 对 象 的 层级 关系 


16.5 PNP 管理 器 
PNP 管理 器 负责 设备 即 插 即 用 功能 ,这 个 管理 器 作为 执行 体 的 一 部 分 是 在 系统 引导 时 


即 插 即 用 (PNP) 的 具体 执行 流程 如 图 16 一 21 所 示 。 
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opPnpEventQueueHead 队 列 


新 设备 对 象 


图 16 一 21 即 揪 即 用 的 执行 流程 


我 们 对 图 16 -21 流程 做 一 下 归纳 梳理 : 

> IopRootDriverObject 驱动 是 Windows 的 根 驱 动 ,负责 创建 整个 系统 中 设备 树 的 最 上 层 
的 根 设备 对 象 ,这 是 个 物理 设备 对 象 。 

> 创建 系统 根 设 备 对 象 时 会 触发 一 条 事件 通知 消息 一 有 个 物理 设备 被 创建 ,系统 将 
该 消息 加 入 即 捕 即 用 消息 队列 (IopPnpEventOueueHead ) 中 。 

> 随 着 PnpInit 图 数 过 程 的 推进 ,IO 管理 需 创 建 内 核 线程 PnpEventThread 处 理 即 插 即 
用 消 奶 队列 中 的 消 恩 , 即 为 新 创建 的 设备 安 疲 相应 的 驱动 (功能 驱动 ) ,并 且 通 知 系统 
设备 树 发 生 了 新 的 变化 。 不 过 上 一 步 中 创建 的 根 设备 的 消息 不 在 此 列 。 

> 根 设备 对 象 创建 好 以 后 再 创建 PCI 总 线 设备 对 象 .USB 总 线 设 备 对 象 和 其 他 总 线 对 
象 ,以 文 持 即 搬 即 用 的 设备 枚 举 等 功能 。 

> 当 在 系统 中 新 插入 某 设 备 时 ,PCI 总 线 枚 举 创 建新 设备 对 象 (PDO ) ,并 和 触发 事件 通知 
消息 一 一 有 个 新 的 物理 设备 被 创建 ,将 该 消息 加 入 即 插 即 用 消息 队列 中 。 

> PnpEventThread 线程 为 新 创建 的 设备 安 痛 驱动 并 通知 设备 树 发 生 了 变化 ,激活 
IopPnpNotifyEvent 事件 ,从 而 激活 NtGetPlugPlayEvent 方法 。 

下 面 再 来 看 PnpEventThread 的 处 理 流程 

> PnpEventThread 从 即 插 即 用 消息 队列 中 获取 消息 ,如 果 是 类 型 为 "增加 设备 ”的 消息 
则 将 其 挂 人 临时 队列 中 。 获 取消 息 是 通过 系统 调用 NtGetPlugPlayEvent 实现 的 ,在 没 
有 消息 时 该 方法 在 lopPnpNotifyEvent 事件 上 阻塞 ,以 等 待 新 的 事件 发 生 。 

> PnpEventThread 激活 DeviceInstalllistNotEvent 事件 , 即 通 知 PNP 管理 硕 内 的 内 核 线程 
DeviceInstallThread 以 安 竣 新 的 设备 驱动 , 安 污 完成 后 DeviceInstalllistNotEvent 事件 阻塞 
休眠 。 

从 上 述 流程 可 知 ,PNP 框架 各 组 件 之 间 构 成 了 一 对 “生产 者 -消费 者 ”的 经 典 关 系 模型 ， 


afi 
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它们 以 即 插 即 用 消息 队列 IopPnpEventOueueHead 为 纽 市 ,如 图 16 一 22 所 示 。 


总 线 驱 动 : 
没 备 动态 增删 信息 


| 


opPnpEventQueueHead 队 列 
16 一 22 PNP 消息 的 生产 与 消费 
PnpInit 除了 创建 根 驱动 对 象 和 根 设 备 对 象 , 还 要 创建 根 设备 方 点 IopRootDeviceNode。 
设备 方 点 是 设备 树 的 组 成 结构 ,用 于 表示 父 于 、 兄 第 关系 和 其 他 一 些 关 联 信息 ,其 数据 结构 
为 DEVICE_NODE ,如 下 所 示 


typedef struct _ DEVICE NODE 


{ 
struct DEVICE NODE *# Parent; 
struct DEVICE NODE # NextSibling; 
struct DEVICE NODE*# Child; 
PDEVICE OBJECT PhysicalDeviceObJject; 
PCM RESOURCE LIST ResourceList; 

} 


设备 节点 也 与 设备 对 象 关联 在 一 起 ,如 图 16 -23 所 示 , 根 节点 以 下 有 两 个 子 节 点 分 别 
代表 了 PNP 设备 和 Legacy 设备 ,而 前 者 还 要 派生 出 物理 设备 节点 和 功能 设备 节点 ,对 应 了 
各 个 驱动 的 物理 设备 对 象 和 功能 设备 对 象 ,这 同时 也 是 WDM 驱动 的 一 般 特 征 。 


代表 了 CPU 对 系 
统 和 硬件 的 操作 


根 设 香 对 象 


-| LopRootDeviceNode 


代表 了 基体 总 线 的 市 


ps 3 Hi 上 上- ns | 
点 ， 例 如 PCI 总 线 等 “站 代表 PNP 设 备 的 刁 皮 |--，| 代 表 Legacy 设 备 的 市 扩 


代表 了 物理 设备 对 象 -- PDO 议 备 攻 点 


代表 了 功能 设备 对 象 -- 


FDO 


16 一 23 ”PnplInit 创建 的 设备 节点 树 
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本 章 小 结 


本 章 主 要 介绍 了 Windows 系统 下 的 设备 驱动 框架 。 在 Windows 中 ,驱动 框架 包含 了 多 
种 数据 结构 ,例如 驱动 对 象 .设备 对 象 等 ,其 信 令 的 下 发 也 不 再 是 传统 报 文 或 者 API 的 方式 。 

在 Windows 的 发 展 过 程 中 ,先后 经 历 了 NT 式 驱 动 模型 WDM 驱动 模型 和 WDF 驱动 模 
型 三 种 框架 结构 ,一 代 比 一 代 先 进 ,一 代 比 一 代 和 省 力 省 时 、 省 电 ` 和 省 脑 。 特 别 是 WDF 驱动 模 
型 又 分 为 了 内 核 模 式 WDF 和 用 户 模 式 WDF ,为 降低 驱动 程序 开发 的 门槛 做 了 很 好 的 铺垫 。 
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第 [7 苹 ”Windows 网 络 协议 栈 驱 动 
本 章 将 按照 图 17 -1 所 示 的 提纲 对 网 络 协议 栈 驱 动 的 相关 技术 进行 梳理 。 


将 OSI 参考 模型 与 网 络 协议 栈 驱动 作 类 比 
协议 驱动 向 N DIS 框架 注册 的 步骤 
NDIS 框 架 e/ “NDIS 小 端口 驱动 向 NDIS 框 架 注册 的 步 双 
NDIS 框 架 发 布 的 功能 支撑 函数 
网 卡 红 动 的 安装 与 堆 亚 
| NDIS 小 端口 驱动 o/ 网 卡 的 启动 步骤 
网 卡 的 1/O 处 理 // 网 络 包 收 和 发 的 过 程 
协议 驱动 的 初始 化 过 程 
协议 驱动 e 协议 驱动 接收 网 络 包 的 流程 
协议 驱动 发 送 网 络 包 的 流程 


AFD 是 对 Socket 机 制 的 支撑 ， 北向 与 用 户 态 socket 库 的 接口 称 为 
网 络 协 议 栈 驱 N] | TDI 


AFD © | socket 的 创建 和 缆 定 过 程 
以 UDP 包 为 例 ,Socket 接 收 数据 报 文 的 过 程 
: TDIVTDX 在 网 络 协议 栈 框架 中 的 位 置 和 作用 
_TDI 传 输 客户 端的 概念 
“TD 传输 服务 端的 概念 
TDX 的 框架 和 设备 对 傅 
方 恒 内 核 杞 程序 使 用 Socket API 
WSK 框 架 所 
(WSK 客户 端 和 WSK 子 系统 ， 以 及 它们 之 间 的 关系 


协议 栈 主 要 框 某 9 


TDWTDX 框 架 日 


WFP 框 架 的 整体 结构 : 内 核 态 过 滤 引 擎 、 用 户 坊 过 滤 引 党 
_WFP 框 计 6| WFP 框 沫 的 过 滤 原 理 
\ 过 滤 引 擎 、 垫 片 、 调 出 接口 、 过 小 器 等 的 工作 流程 
WinPcap 框 架 // 功 能 、 组 成 、 结 构 


图 17-1 本 章 提纲 


OSI( Open System Interconnect ,开放 系统 互 连 ) 参 考 模 型 将 网 络 协议 栈 分 为 7 层 , 从 下 到 
上 的 层次 如 图 17 -2 所 示 。 除 物理 层 外 的 其 余 6 层 均 在 操作 系统 中 实现 了 相关 的 功能 ,其 
中 链 路 层 网 络 层 和 传输 层 的 功能 是 以 内 核 驱动 的 形态 存在 于 Windows 系统 中 的 ,而 另外 三 
层 则 一 般 以 用 户 态 应 用 文 返 库 的 形态 子 以 实现 。 我 们 在 本 章 只 讲述 以 内 核 驱动 形态 存在 的 
下 三 层 的 协议 栈 ,这 三 层 也 被 称 为 Windows 网 络 协议 栈 驱 动 。 

网 络 协议 栈 驱 动 是 实现 0SI 参考 模型 中 硅 干 层 网 络 功 能 的 驱动 ,其 体系 结构 如 图 17 一 3 
所 示 。 可 以 看 出 ,协议 栈 驱 动 的 层次 大 致 是 按照 0SI 参考 模型 的 层次 来 划分 的 。 

TDI( Transport Driver Interface , 传输 驱动 接口 ) 规 范 将 协议 栈 划分 为 两 层 ,TDI 规范 以 上 


其 他 Windows 网 络 框架 e 
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报 文 流 


报 文 流 


17 -2 ”OSI 参考 模型 


应 用 程序 
用 户 态 模式 
网 络 API 动 态 库 


辅助 功能 驱动 


afd.sys 等 


TDI 客 户 端 


TDI 规 范 
TDI 传 辆 . 本 本 
协议 驱动 传输 器 内 核 态 模式 


NDIS 库 ndis.sys 


NDIS 小 端口 驱动 


图 17 -3 Windows 网 络 协议 栈 体系 结构 


的 部 分 称 为 TDI 客户 端 ,以 下 的 部 分 称 为 TDI 传输 器 。TDI 是 连接 辅助 功能 驱动 和 协议 驱 
动 的 接口 ,实现 了 协议 驱动 与 辅助 功能 驱动 的 解 簿 和 对 接 。 

图 17 -4 中 的 NDIS 小 端口 驱动 就 是 具体 的 网 卡 驱 动 ,这 一 般 是 由 网 卡 厂 商 来 提供 的 ， 
例如 本 机 中 存在 的 Intel 以 太 网 网 卡 驱 动 eld62x64. sys .无线 网 卡 驱 动 netwsw04. sys 和 
vwifibus. sys 等 。NDIS 小 端口 驱动 负责 有 具体 型 号 网 卡 的 控制 和 操作 ,大 至 对 应 了 链 路 层 的 下 
半 部 分 (MAC 子 层 一 一 介质 访问 控制 子 层 ) 。 


驱动 名 驱动 类 型 ” ”基地 址 大 小 驱动 对 象 驱动 路 径 文件 厂商 


eld62x64.sys 一 般 驱 动 0xfffff88008148000 Ox80000 Oxfffffa80077ccal0 C:\Windows\system32\D... Intel Corporation 


17 一 4 NDIS 小 端口 驱动 eld62x64. sys 


如 图 17 -5 所 示 ,以太 网 MAC 芯片 的 一 端 连接 到 计算 机 PCI 总 线 , 另 外 一 端 连接 到 以 
太 网 PHY 芯片 上 ,它们 之 间 是 通过 MIIE( 介 质 独 立 接 口 一 一 下 FE 802.3 定义 的 以 太 网 行业 
标准 ) 对 接 的 。 以 太 网 PHY 是 物理 接口 收发 器 , 它 实 现 了 物理 层 功能 。IEEE 802. 3 标准 定 
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义 了 以 太 网 PHY ,包括 MILGMI( 介质 独 立 接 口 ) 子 层 、PCS( 物理 编码 ) 了 于 层 、PMA( 物理 介 
质 附 加 ) 子 层 .PMD( 物理 介质 相关 ) 子 层 。 


会 话 层 
1 (RPC) 


传输 层 介质 独立 接口 (MID 


(TCP/UDP) 介质 独立 接口 (MID 


3 以 太 网 
网 络 层 a 
和 | 
| 和 
PT 上 发 送 器 | 
(MAC) + 上 | 接收 器 
| 


Manchester 4B/5B 


图 17-S 链 路 层 与 物理 层 的 硬件 体系 结构 


了 


100Basel A 


L 


那 NDIS 又 是 什么 呢 ? NDIS ( Network ee 

Driver lnterface Specitication, 网 络 驱 动 接口 规 一 

注册 回调 函数 指针 
范 ) 是 由 微软 与 3COM 在 1989 年 联合 制定 的 。 一 -一 -------- NDIS 上 边沿 接 品 
NDIS 库 是 网 络 协议 栈 驱 动 中 最 重要 的 模块 ,起 
着 承上启下 的 作用 , 它 人 允许 上 层 的 协议 驱动 和 注册 回 凋 函 数据 针 
下 层 的 NDIS 小 端口 驱动 (网 卡 驱动 ) 通 过 上 下 NDIS 小 端口 驱动 
边沿 接口 向 它 注册 回调 函数 指针 ,以 便 打 通 协 
议 驱 动 和 网 卡 驱动 之 间 的 联系 ,同时 也 提供 了 
NDIS 风格 的 系统 调用 封装 接口 ,如 图 17 -6 所 示 。NDIS 不 代表 0SI 参考 模型 中 的 任何 一 
层 ,但 NDIS 将 操作 系统 实现 的 协议 栈 功 能 与 各 厂商 实现 的 物理 网 卡 功能 关联 了 起 来 ,并 实 
现 了 协议 栈 驱 动 与 物理 网 卡 驱动 的 双 回 无 关 性 ;只 要 遵循 NDIS 框架 和 接口 规范 ,协议 驱动 
和 网 卡 设备 驱动 都 可 以 由 不 同 的 开发 者 提供 ,甚至 我 们 自己 DIY 的 一 个 协议 驱动 也 可 以 挂 
接 进 来 。NDIS 将 在 后 面 的 章节 中 专门 介绍 。 

Windows 中 的 协议 驱动 就 是 指 tcpip. sys, 这 是 网 络 协 议 栈 驱动 的 核心 模块 ,协议 栈 中 链 
路 层 的 MAC 子 层 ,网络 层 .传输 层 都 是 由 协议 驱动 实现 的 ,可 以 说 协议 驱动 是 网 络 协议 栈 功 
能 的 集大成 者 。 当 然 tepip. sys 是 由 微软 实现 的 ,由 于 TDI 和 NDIS 框架 的 存在 ,协议 驱动 也 
可 以 由 第 三 方 实现 , 只 要 在 上 下 边沿 分 别 体 循 TDI 和 NDIS 接口 就 行 了 。 

辅助 功能 驱动 ( Ancillary Function Driver, AFD ) 用 于 实现 Socket 机 制 ,具体 承载 模块 是 


图 17-6 NDIS 上 下 边沿 接口 及 回调 注册 
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afd. sys。 我 们 在 应 用 软件 中 使 用 的 网 络 库 (ws2_32. dll 等 ) 都 是 通过 调用 AFD 进而 与 协议 驱 
动 打 交道 的 。 对 于 AFD 后 文 也 会 有 详细 介绍 。 

在 Windows 系统 中 AFD 及 其 下 层 的 驱动 都 是 内 核 态 驱动 。AFD 之 上 的 网 络 API 接口 
就 是 用 户 态 动态 库 了 ,Windows 对 这 一 部 分 已 经 做 了 很 好 的 封装 ,并且 许 多 通信 框架 又 基于 
这 些 网 络 API 做 了 二 次 封 竣 ,使 调用 更 加 简洁、 功能 更 加 强大 体系 更 加 框架 化 ,后 续 草 市 会 


有 介绍 。 
17.1 NDIS 框架 


NDIS 是 协议 栈 驱 动 中 的 重要 框架 ,连通 了 协议 驱动 与 NDIS 小 端口 驱动 ,同时 也 提供 了 
很 多 功能 性 函数 供 NDIS 框 染 成 员 调 用 ,因此 我 们 可 以 将 其 看 作协 议 驱 动 与 NDIS 小 端口 驱 
动 的 隔离 屋 。 我 们 在 网 络 包 检测 和 过 小 的 时 候 经 党 在 NDIS 框架 上 挂 钧 相应 的 过 小 型 驱动 
程序 ,作为 卷 路 驱动 检测 数据 包 。 而 防火 墙 和 虚拟 网 卡 的 实现 也 都 有 束 于 NDIS 框架 ,并 由 
NDIS 框架 中 间 层 驱动 实现 。 甚 至 我 们 在 后 文 要 讲述 的 WinPcap 框架 (wireshark 抓 包 工具 的 
主要 框架 ) 也 是 基于 NDIS 框架 实现 的 。 由 此 可 见 NDIS 框架 在 网 络 安 全 和 网 络 分 析 领 域 有 
者 多 么 广泛 的 应 用 。 

NDIS 是 个 比较 复杂 的 框架 ,把 它 看 成 一 个 “ 包 溢 各 ”( Wrapper) 可 能 更 贴切 。 从 图 17 一 7 
可 以 看 出 ,NDIS 框架 提供 了 对 NDIS 小 病 口 驱动 调用 HAL( Hardware Abstraction Lavyer, 便 件 
抽象 层 ) 的 支持 、NDIS 小 交口 驱动 与 中 间 层 驱动 /协议 驱动 的 互通 机 制 .中间 层 驱动 与 协议 
驱动 的 互通 机 制 等 。 其 中 ,中间 层 驱动 也 可 以 由 多 个 驱动 堆 登 起 来 构成 ,在 流量 负载 均衡 体 
系 中 ,这 是 一 种 常用 的 机 制 和 方法 。 因 此 ,NDIS 不 是 某 几 种 驱动 之 间 的 通信 框架 , 而 是 一 个 
也 包含 了 系统 调用 .HAL 访问 支持 在 内 的 全 方位 框 保 。 不 过 NDIS 中 间 层 驱动 不 古 我 们 考 
察 的 重点 ,本 章 主 要 介绍 NDIS 框架 对 协议 驱动 与 NDIS 小 端口 驱动 的 支持 。 


传输 层 驱 动 程序 接口 (TDD 


协议 驱动 
I 其 他 协议 
NDIS 中 间 层 驱动 


NDIS 接 口 


小 端口 驱动 适 配 


17 -7 NDIS 整体 框架 


283 


应 用 软件 开发 协议 栈 a 


协议 驱动 与 NDIS 小 闹 口 驱动 在 初始 化 的 时 候 都 要 癌 NDIS 框架 注册 ,如 图 17 -8 所 示 ， 
我 们 将 协议 驱动 和 NDIS 小 端口 驱动 的 注册 步骤 对 比 着 来 介绍 : 


协议 驱动 


: ss ee 协议 驱动 急 始 化 
NDIS_PROTOCOL_CHARACTERISTICS -时 亚 向 NDIS 注 册 


NDIS 小 端口 驱动 初始 


NDIS MINIPORT CHARACTERISTICS 
一 一 ”化 时 要 向 NDIS 登 记 


DIS 小 端口 驱动 


17 -8 协议 驱动 与 NDIS 小 端口 驱动 向 NDIS 注册 的 步骤 


> NDIS 框架 的 加 载 要 先 于 协议 驱动 和 NDIS 小 问 口 驱动 的 加 载 。 
> 协议 驱动 通过 NDIS 框架 的 NdisRegisterProtocol 方法 向 NDIS 框架 注册 ;NDIS 小 端 
口 驱动 通过 NDIS 框架 的 NdisRegisterMiniport 方法 向 NDIS 框架 注册 。 
> 使 用 NdisRegisterProtocol 注册 时 ,协议 驱动 使 用 NDIS_PROTOCOL_CHARACTERISTICS 
(协议 特征 块 ) 数 据 结构 携 市 协议 驱动 的 回调 消 数 指针 癌 NDIS 框架 登记 。 协 议 特征 
块 中 保存 有 LO 相关 的 函数 指针 供 NDIS 小 端口 驱动 回调 。 
> 使 用 NdisRegisterMiniport 注册 时 , NDIS 小 端口 驱动 使 用 NDIS_ MINIPORT _ 
CHARACTERISTICS( 小 端口 特征 块 ) 数 据 结 构 携带 NDIS 小 端口 驱动 的 回调 函数 
指针 向 NDIS 框架 注册 。 小 端口 特征 块 中 也 保存 有 IO 相关 的 函数 指针 供 协议 驱动 
回调 。 
1. 协议 驱动 向 NDIS 框架 注册 
协议 驱动 癌 NDIS 框架 注册 时 ( NdisRegisterProtocol) 要 执行 以 下 几 个 步 又: 
(1) 分 配 一 个 PROTOCOL_BINDING 数据 结构 ,将 NDIS_PROTOCOL_CHARACTERISTICS 
(协议 特征 块 ) 中 的 数据 复制 进去 ,这 些 数 据 代表 了 一 个 协议 驱动 。 
(2) 查询 注册 表 “ HKLM\SYSTEM\CurrentSet\Services \Tcpip \Parameters \Interfaces 中 的 
设备 名 ,这 些 设备 名 就 是 当前 系统 中 的 具体 的 网 卡 设备 ,如 图 17 -9 和 图 17 -10 所 示 。 


| Adapters 
] DNSRegiste redAdapters 


\ 5 - 由 - 志 {1C2CF645-A4D5-4764-9688-80412D17C06E} 


“中 {6514DF53-2975-422F-A3EC-239E1CC632A5} 
加 {B46ee342-7039-1ilde-9d20-806e6f6e6963} 
“出 {C22E423D-C8B4-4F38-BC43-56BD1B4DF1C4} 
a {DB6DS1BC-7F09-46CD-9D3D-E72F42B1557C} 
一 出 re 


图 17 -9 pe 
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{1C2CF645-A4D5-4764-9688-80412D17C06E)} SymbolicLink \Device\NDMP5 
{29898C9D-BOA4-4FEF-BDB6-57A562022CEE} SymbolicLink \Devicea\NDMP7 
{3DBA63B7-82BC-467A-A3FC-CE1BA55D2BAD} SymbolicLink \Device\NDMP1 
{4324EA8E-F737-470B-9A82-A153A9181FBA} SymbolicLink \Device\NDMP4 
{6514DF53-2975-422F-A3EC-239E1CC632A5} SymbolicLink ‘Devicea\NDMP15 


{71F897D7-EB7C-4D8D-89DB-AC80D9DD2270} SymbolicLink \Device\NDMP14 
{78032B7E-4968-42D3-9F37-287EA86COAAA} SsymbolicLink \Device\NDMP16 
WDIC167B-2B63-48D6-B9CB-EEB11940276D} SymbolicLink \Device\NDMP2 
{BE301A52-AFFA-4F49-B9CA-C79096A1A056} SymbolicLink 
{C22E423D-C8B4A-4F38-BC43-56BD1BADF1C4 SymbolicLink 


图 17 -10 图 17-9 所 示 符 号 链接 对 应 的 设备 名 


(3) 对 上 述 查 询 到 的 每 个 设备 执行 协议 特征 块 中 的 成 员 变 量 一 一 绑 定 函数 , 即 协议 特 
征 块 的 BindAdapterHandler 指针 所 指 回 的 图 数 , 该 图 数 是 由 协议 怠 动 提供 的 。 这 一 步 代 表 了 
协议 驱动 与 具体 设备 的 绑 定 。 

(4) 将 PROTOCOL_BINDING 数据 结构 挂 入 NDIS 的 协议 驱动 链表 ProtocolListHead 。 

1 具体 解释 。 痛 先 查 找 注 册 表 “HKLM \ SYSTEM \ CurrentSet \ Services \ Tcpip \ 
Parameters\Interfaces” 中 的 设备 名 可 以 看 到 Interfaces 目录 下 全 是 符号 链接 我 们 通过 符号 
链接 找到 了 对 应 的 真实 设备 名 “Device\NDMP5”“ Device\NDMP6”"“ Device\NDMP15 ”等 ,而 
NDMPS5 NDMP6 和 NDMP15 所 代表 设备 的 类 型 均 为 FILE_DEVICE_PHISICAL_NETCARD 
(如 图 17 一 11、 图 17 一 12 和 图 17 一 13 所 示 ) ,这 是 物理 网 卡 设备 对 象 类 型 ,由 此 我 们 可 以 看 
出 ,执行 协议 特征 块 的 绑 定 困 数 ,其 实质 的 被 操作 对 象 其 实 是 物理 网 卡 设 备 对 象 , 即 以 物理 
网 卡 设备 为 参数 调用 协议 驱动 所 提供 的 绑 定 图 数 , 从 而 将 协议 驱动 与 每 个 物理 网 卡 设备 绑 
定 关 联 ,如 图 17 - 14 所 示 。 执 行 完 NdisRegisterProtocol 时 ,网 卡 设 备 对 象 中 会 保存 协议 驱动 
的 各 种 IO 回调 函数 指针 ,网卡 驱动 可 以 调用 协议 驱动 的 这 些 回调 冰 数 。 


晶 -… DRY \Driver\NetBT 
| :…— DEY ‘Devica\MNetBT _Tcpip {6514DF53-2975-42 Deviee Name: NDewiee\HIMPS Type: [FILE DEVICE PHISICAL NETCA 


EE .DEV ‘Devica\NatBT_Tcpip {1C2CF645-AADS-4-; Driwver Name: MDriver\ 了 ETwlisB 直 EIT ty Mttributes | 
-DEV ‘\Device\NetBT_Tcpip {C22E423D-C8B4-4 Deviee Dbject DxFFPFFABOOTTSCOSD FsDheviee: Dpe pn 
DEY ‘Device\NetBt Wins Export Driver Dbject.: DPFEFFAAOOTTIEDED | Deviee [ pe Routime: | 


-Dpv \Driver\NETwNs64 Hext Device: | | 


- | ' Handle Count: OD ~- A i erment; Chir net oristi exrlon 
口 一 DEV “Devica\NDMPS 本 
| Pointoar Cowt. Wpb: Flags: Dx2050 


| ATT Attached: (unnamed) - \Driver\wwifi rt BIA1T0 08:00:00 Refer ences: Current Lrp: Dx0000000000000000 
DRV VDriwernm3 Ruteehod ET Deninge Dev 
DEV \Device\Nm3_{1C2CF645-A4AD5-4764-968 区 : 

: "DEY “Devicea\Nm3 (6514DF53-.2975-422F-A3EC DEYILE SELURE OFEN 

. DEY “Device\Nm3 {5BFSAC7TE-91D0A-457D-80E 

:DEY ‘Device\Nm3 {C22E423D-C8B4-4F38-BC4 


图 17 -11 NDMPs 所 代表 的 设备 


一 DRV VDriverDsArk 

-DAY VDrivervdtlitescsibus Daviee Nine: Device Type: FILE DEVICE PHYSICAL HETCAL 
-DRY VDrivervdtiteusbbus Driver Namne: MDriver\el derpress ty hltributes 
-DRY \DriverDXGKmnl Device Object Pe FSDevice: [0x0000000000000000 | Dpe 

3 DAY \Driver\eldexpress Driver Object: | Device 本 一 Dpe Boutine: 

I nm DDND 


DEY \DewicevINTELPRO IC22E423D-C8B4-4F3i Wext Device: | Wome , 到 一 一 一 
DEYV ‘\Devica\NDMPE Handle Lomnt.: haracteristie 
Pointer Cowunt: DxD000000000000000 Flags: 


: “DRY \Driver\fvevol Ceation Time: DOT0 08:00:00 References: 0 rrent Irp: Dxo000000000000000 
DRY \Driver\HDAudBus 由 000000000000000 D 0mingDer 
日 一 DEY ‘Device\0000008e 
”ATT ‘\Device\00000091 DEVICE SECURE OPEN 
LATT ‘\Device\00000092 
四- DEV ‘\Device\0000008d 


Tnterpreted Device Char acteristl es; di hd Dewice Flags: 


图 17-12 ”NDMP6 所 代表 的 设备 
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Tyhe: ts mes posien, Ten 


rity httributes 


.FD0 \Device\NDMPp14 Device Dbject DeFFFFFASO00TT90050 peheviee: 0x0000000000000000 | Dpe Del 
日 PDO ‘\Device\00000053 - [Root\NET] Driver ei [OxFFFFFABOOTTODACO | Device Dx17 Dpe Routine: Dx0000000000000000 
.FDO \Device\WDMP15 lee: [0x0000000000000000 |Stack Size: PF Dpe Nunber: x0 


Fle 让 = ~ Mi ernment Dx Char ent eristicdrIO0 
PDO VDewiceM00000054 - [Roeot\RDPBUS] 人 550000000000000000 plaes a 
图 "PDO \Devca\ 55 - [RooARDF KBO] Creatiom Time: DI70L7T0 W0000 Melerenees. 0 Current Irp: IDheono00no00n0o00on 


POO Device\00000056 = [RectRDP MOU] 从 下 ed [nooo00o0000onn0on 号 面世 业 站 pb Dwnineg Daw | OxFFPFFAAOOTTADOSO 
PDO MDewicev00000057 - [Root\SsCSIADAPTER] TInterprated Dovice FLags: 


PDO \Device\00000058 - [Root\SMDRIVER] [| frevice SECURE OP ~ [Ev 0s FE 
PDO \Device\00000059 - [Root\sYSTEMI ~ TT 


图 17-13 ”NDMPI1S 所 代表 的 设备 


从 图 17 -11 可 以 看 出 ,NDMPS 所 代表 设备 对 应 的 驱动 对 象 是 NETwNs64 ,其 驱动 载体 

是 netwsw04 . sys( Windows 7 下 ) ， 这 是 个 无 线 网 卡 设备 驱动 。 我 们 还 可 以 看 出 ， NDMPS 上 面 
还 堆 痉 了 一 个 无 名 设备 (类 型 也 为 FILE_DEVICE_PHISICAL_NETCARD ) ,其 对 应 的 驱动 对 
象 为 vwifibus ,其 驱动 载体 为 vwifibus. sys。 

从 图 17 一 12 可 以 看 出 ,NDMP6 所 代表 设备 对 应 的 驱动 对 象 是 eldexpress , 其 驱动 载体 是 
eld62x64. sys ,这 是 个 以 太 网 网 卡 设备 。 

从 图 17 -13 可 以 看 出 ,NDMP15 是 个 功能 设备 对 象 , 附 加 在 “ Device\00000053 "这 个 物 
理 设备 对 象 之 上 。NDMP15 所 代表 的 功能 设备 的 类 型 是 FILE_ DEVICE_PHISICAL_ 
NETCARD ,其 驱动 载体 为 msloop. sys ,这 是 个 环 回 网 卡 驱动 。 其 所 附加 的 物理 设备 (下 层 设 
备 ) 是 个 FILE_DEVICE_CONTROLLER 类 型 的 对 象 ,驱动 载体 是 PnpManager, 即 PNP 管理 
僵 , 由 此 可 以 看 出 , 环 回 网 卡 所 对 应 的 设备 是 作为 虚拟 设备 出 现 的 ,驱动 程序 也 是 功能 性 驱 
动 。 从 图 17 一 14 和 图 17 一 15 可 以 看 出 当前 系统 中 的 各 网 卡 设备 及 其 与 协议 驱动 的 绑 定 


协议 驱动 
绑 定 


4 - 节 网 络 适 本 器 
Intel(R) Dual Band Wireless-AC 8265 


一 Intel(R) Ethernet Connection (4) 1219-V 
… 富 pe Loopback Adapter 


NDMNMPG NDMNMPS NDMP1S ] : ; 
图 17 -14 协议 驱动 与 网 卡 设备 的 绑 定 图 17 - 15 当前 系统 中 出 现 的 三 块 网 卡 设备 


2. NDIS 小 端口 驱动 向 NDIS 框架 注册 

NDIS 小 并 口 驱动 癌 NDIS 框架 注册 时 ( NdisRegisterMiniport ) 由 则 要 执行 以 下 几 个 步骤 : 

(1) 将 NDIS_MINIPORT_CHARACTERISTICS( 小 端口 特征 块 ) 中 的 数据 复制 到 NDIS 小 
闹 口 驱动 块 (NDIS_M_DRIVER_BLOCK 数据 结构 ) 中 。 小 端口 驱动 块 是 由 网 卡 驱 动人 人口 沿 
数 创建 的 ,代表 了 网 卡 设备 对 象 。 

(2) 对 小 端口 设备 的 驱动 对 象 ( Miniport. DriverObject) 分 配 设备 扩展 区 域 ( 由 IoAllocate 
DriverObjectExtension 方法 实现 ) ,并 设置 驱动 对 象 的 PNP 处 理 例 程 和 AddDevice 函数 指针 。 
PNP 处 理 例 程 是 NDIS 提供 的 NdisIDispatchPnp 方法 ;AddDevice 图 数 指针 是 由 NDIS 提供 的 
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NdisIAddDevice 方法 ,作用 是 将 网 卡 驱动 创建 的 设备 对 象 纳入 协议 栈 设 备 对 象 的 堆 私 中 。 

NdisRegisterMiniport 执行 完成 后 ,系统 会 准备 一 个 主 功能 人 码 为 IRP_MJ_PNP 、 副 功能 人 码 为 
IRP_MN_START_DEVICE 的 IRP, 并 通过 IoCallDriver 方法 向 下 传递 。NdisIDispatchPnp 对 这 
个 IRP 进行 处 理 , 它 会 调用 由 NDIS 提供 的 NdisIPnpStartDevice 函数 启动 网 卡 的 运行 。 

3. NDIS 框架 的 功能 函数 

NDIS 框架 的 载体 是 ndis. sys ,其 实 也 是 个 端口 驱动 模块 ( 非 小 端口 驱动 ) ,这 个 模块 的 入 
口子 数 也 依然 是 DriverEntry。 但 NDIS 框架 有 其 特殊 性 , 它 不 创建 设备 对 象 ,也 不 提供 
AddDevice 函数 和 主 功 能 派遣 函数 数组 ,因此 不 能 堆 径 于 网 络 协 议 栈 框架 中 ,我 们 更 多 地 将 
其 看 作 一 个 运行 环境 或 运行 框架 。 

NDIS 提供 了 非常 多 的 功能 函数 供 框架 中 的 成 员 调 用 (如 图 17 一 16 所 示 ) ,但 实际 上 这 
些 功 能 遇 数 很 多 也 是 Windows 系统 调用 的 封 次 ,例如 NDIS 包 的 分 配 等 。 因 为 在 NDIS 框架 
中 ,IRP 是 无 法 通行 的 (PNP 类 型 的 除外 ) ,请 求 的 上 .下 行 只 能 采用 框架 允许 的 数据 结构 ,在 
这 里 就 是 以 NDIS 包 代替 了 IRP。 


unction KRVA Name Qrdina Name 
N/A O00C7E70 O000C8D44 000C9206 
(nFunctiens) Dward Werd | Dwaerd szAnsl 
0000001F 00009CE0 000D260B NdisAllocatePacket 
00000020 0000B8F0 000D261E NdisAllocatePacketPool 
00000021 0000B980 000D2635 NdisAllocatePacketPoolEx 
00000022 0000C820 2 000D264E NdisAllocateRWLock 
00000023 00043BA0 02 000D2661 NdisAllocateReassembledNetB... 
0003F1E0 000D2686 NdisAllocatesharedMemory 


沪 , Dependency Walker 00012DE0 000D269F NdisAllocateSpinLock 
和 十 六 进 制 编 辑 


000430E0 000D26B64 NdisAllocateTimerObject 
000262C0 000D26CC NdisAnsiStrngToUnicodestring 


00008590 0 000D26EA NdisBufferLength 


17 一 16 ”NDIS 框架 提供 的 功能 函数 

NDIS 框架 中 存在 的 三 个 队列 是 在 人 口 困 数 DriverEntry 中 被 初始 化 的 ， 

> ProtocolListHead :协议 驱动 块 队 列 ， 

> MiniportListHead : 小 端口 驱动 块 队列 ,代表 了 有 具体 的 网 卡 驱 动 模块 。 

> AdapterListHead 网 络 接口 控制 需 (Network Interface Controller ,NIC) 即 网 卡 设 备 队 列 。 

这 里 还 要 强调 一 点 ,NDIS 不 但 隔离 了 协议 驱动 与 NDIS 小 端口 驱动 ,也 隔离 了 NDIS 小 
问 口 驱动 与 系统 的 HAL。 小 端口 驱动 对 某 些 世 乒 寄 存 器 的 读 写 要 调用 NDIS 接口 而 不 能 
接 读 写 ,必须 由 NDIS 的 相关 接口 去 访问 HAL 的 接口 ,这 样 就 隔离 了 小 端口 驱动 与 系统 中 代 
表 通 用 尽 片 的 硬件 抽象 层 ( HAL ) 。 

NDIS 6.0 以 上 的 版 本 也 支持 轻 量 级 过 滤 驱 动机 制 NDISFilter, 该 机 制 用 于 截获 MAC 级 
别 的 网 络 数据 包 。NDISFilter 通过 NdisIMInitializeDeviceInstanceEx 方法 创建 了 一 个 虚拟 网 
卡 , 这 个 虚拟 网 卡 的 作用 是 使 上 层 的 协议 驱动 都 绑 定 到 它 目 己 ,并 且 对 下 层 的 真实 网 卡 驱 动 
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17.2 NDIS 小 端口 驱动 


1. NDIS 小 端口 驱动 的 安装 与 堆 堂 

NDIS 小 端口 驱动 也 就 是 物理 网 卡 (NIC) 驱动 ,是 由 各 个 网 卡 生产 厂商 按照 NDIS 框架 
规范 提供 的 ,其 人 口 郴 数 Driverkntry 的 主要 功能 包括 : 

> 设置 小 端口 特征 块 NDIS_MINIPORT_CHARACTERISTICS 的 各 个 参数 、 困 数 指针 等 。 

> 创建 小 端口 驱动 块 NDIS_M_DRIVER_BLOCK 并 挂 人 NDIS 框架 的 MiniportListHead 

队列 中 。 

> 将 小 端口 特征 块 的 数据 复制 到 小 端口 驱动 块 的 对 应 区 域内 。 

> 调用 NdisRegisterMiniport 图 数 回 NDIS 框架 注册 登记 ,这 在 上 一 节 中 已 经 介绍 了 。 

人 人口 图 数 返 回 以 后 ,AddDevice 方法 会 被 调用 ,这 与 普通 的 WDM 驱动 程序 一 样 。 这 里 
的 AddDevice 方法 就 是 NDIS 框架 的 NdisIAddDevice 函数 ,该 函数 将 创建 的 NIC 设备 对 象 
( FILE _ DEVICE _ PHISICAL _ 
NETCARD 类 型 的 网 卡 设备 对 象 ) 纳 
人 协议 栈 设 备 对 象 中 ,同时 也 要 设置 
NIC 设备 的 DPC 函数 ,这 个 函数 则 是 i 
由 小 端口 驱动 提供 的 ,如 图 17 -17 17-17 调用 NdisIAddDevice 后 形成 的 设备 堆 释 
所 示 。 

调用 完 AddDevice 方法 后 ,系统 通过 NdisIDispatchPnp 方法 下 发 一 个 主 功 能 人 码 为 IRP_MJ_ 
PNP 副 功 能 码 为 [RP_MN_START_DEVICE 的 IRP 以 启动 网 卡 硬件 ,这 也 是 设备 启动 的 标准 
步 又。 网 卡 的 启动 由 NDIS 框架 提供 的 NdisIPnpStartDevice 方法 实现 ,网 卡 的 停止 也 是 由 
NDIS 的 NdisIPnpStopDevice 实现 。 设 备 的 局 动 与 停止 一 般 应 该 由 设备 张 动 (小 站 口 驱 动 ) 提 
供 , 但 这 里 却 由 NDIS 框架 来 提供 ,这 也 充分 说 明了 NDIS 框架 的 封装 特性 (这 两 个 接口 只 是 
将 设备 驱动 提供 的 局 动 和 停止 的 功能 函数 包装 了 一 下 ,本 质 上 都 是 通过 设备 驱动 加 NDIS 框 
涤 注册 的 函数 ) ,其 目的 就 是 为 了 让 所 有 的 网 卡 驱动 部 运行 在 统一 的 框架 和 接口 之 下 ,通过 
NdisIPnpStartDevice/ NdisIPnpStopDevice 去 反 调 网 卡 驱 动 的 启动 /停止 函数 。 

除了 启动 网 卡 , 还 要 将 IRP 下 发 到 下 层 驱 动 , 即 通 过 NdisIForwardlrpAndWait 方法 下 发 
到 PNP 根 驱 动 , 其 本 质 还 是 对 IoCallDriver 的 封装 调用 。 

2. 网 卡 的 启动 

我 们 先 来 看 NdisIPnpStartDevice ,该 方法 的 主要 执行 步骤 如 下 : 

(1) 先 将 NIC 设备 对 象 持 入 NDIS 的 AdapterListHead 队列 中 。NIC 设备 对 象 的 扩展 区 
域 是 一 个 LOGICAL_ADAPTER 数据 结构 ,本 质 上 是 将 该 结构 挂 入 AdapterListHead 中 。 

(2) 调用 由 小 端口 驱动 提供 的 初始 化 函数 MiniportInitialize 。NdisIPnpStartDevice 是 通 


NDIS 小 端口 驱动 se-- NIC 设 备 


堆 营 堆 符 
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过 调用 小 端口 驱动 块 的 InitializeHandler 函数 指针 来 间接 调用 MiniportInitialize 的 。 

(3) 将 代表 网 卡 设备 对 和 象 的 LOGICAL_ADAPTER 数据 结构 也 挂 入 小 端口 驱动 块 的 设备 
队列 。 

从 上 述 步骤 可 以 看 出 ,NdisIPnpStartDevice 的 执行 本 质 上 还 是 要 回调 由 小 端口 驱动 (网 
卡 驱动 ) 提 供 和 注册 的 初始 化 晴 数 ,因为 只 有 上 有 具体 的 网 卡 驱动 才 知 道 怎样 初始 化 这 块 网 卡 ， 
NDIS 框架 只 不 过 是 把 调用 步骤 过 了 一 下 手 。 

由 小 端口 驱动 提供 的 MiniportInitialize 的 主要 执行 步 又 如 下 : 

(1) 分 配 代表 NIC 设备 的 NIC_ADAPTER 数据 结构 ,并 设置 其 中 的 各 个 属性 和 图 数 指针 。 

(2) 从 PNP 管理 希 中 查询 资源 :MiQueryResource。 

(3) 调用 NDIS 框架 发 布 的 NdisMSetAttributes 方法 ,向 NDIS 框架 报告 小 端口 驱动 所 
支持 的 NIC 设备 类 型 并 且 传 递 指向 小 端口 上 下 文 的 句柄 。NDIS 将 在 接 下 来 的 调用 中 把 这 
个 句柄 传递 给 MiniportXxx 系列 吨 数 。 

(4) 调用 NDIS 框架 提供 的 NdisMRegisterIoPortRange 方法 ,为 NdisRawReadPortXxx 和 
NdisRawWritePortXxx 限 数 的 使 用 建立 IO 访问 妆 口 。 

(5) 调动 NDIS 框架 提供 的 NdisMRegisterInterrupt 方法 ,连接 小 端口 驱动 的 中 断 服 务 
子 数 (MiniportISR) 和 由 NIC 所 产生 的 中 断 问 量 。 其 参数 NDIS_MINIPORT_INTERRUPT 也 
是 NIC_ADAPTER 数据 结构 的 一 部 分 ,包含 了 中 断 服 务 例 程 ServiceRoutine 和 DPC 例 程 
HandleDeferredProcessing ,两 者 部 是 由 NDIS 框 染 提供 的 。 当 然 这 两 者 也 是 在 子 数 内 部 反 调 
小 问 口 驱动 提供 的 中 断 例 程 。 

(6) 调用 由 NIC 驱动 提供 的 真实 设备 启动 函数 NICStart。 

(7) 将 NIC_ADAPTER 结构 挂 入 全 局 数据 结构 DriverInfo 的 适配器 队列 AdapterListHead 
中 。 

3. 网 卡 的 1/0 处 理 

网 卡 的 LO 处 理 过 程 也 是 一 个 中 断 人 处 理 过 程 , 且 这 个 过 程 与 普通 的 中 断 处 理 过 程 并 无 
二 致 。 我 们 以 网 卡 收 到 网 络 包 为 例 来 讲述 这 个 处 理 过 程 , 如 图 17 -18 所 示 。 

(1) 网 卡 收 到 网 络 包 并 产生 硬件 中 断 。 

(2) 系统 分 发 中 断 ,执行 IDT 中 相应 的 中 断 服 务 例 程 , 即 中 断 回 量 的 服务 例 程 
ServiceRoutine ,这 个 图 数 是 在 小 交口 驱动 初始 化 过 程 中 调用 NdisMRegisterInterrupt 方法 所 连 
接 起 来 的 。 中 断 分 发 首先 执行 小 端口 驱动 提供 的 中 断 服务 例 程 MiniportISR, 再 执行 
KelInsertQueueDpe 以 插入 NDIS 框架 提供 的 DPC 因数 HandleDeferredProcessing ,这 两 者 分 
别 代 表 了 中 断 的 前 半 段 与 后 半 段 。 

前 者 (中 断 服务 例 程 ) 的 处 理 逻 辑 非常 简单 ,只 是 屏蔽 一 下 中 断 并 插 人 一 个 DPC ,这 是 为 
了 尽量 缩短 关中 断 的 时 间 ,把 具体 的 繁杂 且 耗 时 的 工作 留 给 后 者 (DPC 函数 ) 去 完成 ,这 是 
中 上 断 服 务 例 程 的 前 半 段 。 

后 半 段 的 DPC 函数 是 NDIS 框架 提供 的 HandleDeferredProcessing, 从 中 断 服 务 例 程 
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网 卡 收 到 网 络 包 产生 中 断 


中 断 处 理 


本 5 
例 程 前 半 段 : Miniport[SR - 
执行 中 断 服务 例 程 


ServiceRoutine 


中 断 处 理 
返回 后 执行 


提交 NDIS 提 供 的 DPC 国 数 


HandleDeferredProcessing 


执行 HandleDeferredProcessing|-- 


Ps 
ht 


. [ 盾 行 不 器 口 驱 动 提供 的 中 了 晰 服务 例 程 | ， 
! | 后 半 段 : MiniportHandlelnterrupt |! 执行 HandleReceive 全 


返回 后 执行 


i 半日 
DPC 函数 MiniportDpc 


MiniportDpe 


图 17-18 网 卡 收 到 数据 包 时 的 中 断 处 理 过 程 


ServiceRoutine 返回 后 就 开始 执行 HandleDeferredProcessing , 这 是 因为 ServiceRoutine 中 已 经 
插入 了 这 个 DPC 清 数 ,执行 DPC 的 过 程 是 开 中 断 的 。 

这 里 要 强调 的 是 ,网 络 包 在 网 卡 驱 动 中 的 收发 是 一 体 的 ,完成 了 网 络 包 的 接收 也 要 看 手 
安排 网 络 包 的 发 送 工作 ,所谓 网 络 包 的 处 理应 该 包含 收 和 发 两 个 方面 。 

HandleDeferredProcessing 并 不 能 直接 完成 网 络 包 的 收发 处 理 , 至 少 不 能 同时 完成 ,而 是 
将 发 送 的 工作 通过 散 套 DPC 机 制 来 实现 。 HandleDeferredProcessing 本 刁 也 为 网 络 包 发 送 构 
造 DPC 明 数 ,大正 的 包 发 送 是 这 个 租 套 插入 的 DPC 耳 数 实现 的 。 

因此 , 收 到 一 个 网 络 包 后 的 处 理 流程 大 致 为 : 

(1) 中 断 的 前 半 段 关中 断 , 封 朔 DPC1 困 数 , 即 上 文 的 HandleDeferredProcessing, 这 个 
DPC1 六 数 是 实质 接收 网 络 包 的 DPC 郧 数 ; 

(2) 中 断 的 后 半 段 执行 上 述 DPC1 函数 ,将 接收 到 的 网 络 包 向 上 层 驱 动 投递 ,并 封装 实 
质 发 送 网 络 包 的 DPC2 隐 数 ; 

(3) 在 任意 上 下 文中 执行 DPC2 函数 ,完成 网 络 包 的 发 送 。 

其 中 前 两 步 都 是 在 中 断 发 生 时 的 线程 中 进行 的 ,后 一 步 则 可 以 在 任意 上 下 文中 实现 。 

具体 来 说 ,HandleDeferredProcessing 首先 会 执行 小 病 口 驱动 的 中 断 服务 例 程 的 后 半 段 
(中 断 处 理 例 程 被 分 成 了 前 后 两 段 ) , 即 MiniportHandleInterrupt, 这 是 由 小 端口 驱动 提供 
的 ;然后 再 次 通过 KeInsertOueueDpe 插入 一 个 DPC2 国 数 ,这 个 DPC2 图 数 是 小 端口 驱动 提 
供 的 MiniportDpe ,这 才 是 真正 处 理 网 络 包 发 送 的 因数 ;最 后 开 中 断 ,当然 这 个 开 中 断 的 方法 
也 是 要 由 小 端口 驱动 提供 的 ,因为 这 是 针对 NIC 芯片 的 开 中 断 , 只 有 具体 设备 的 驱动 程序 才 
知道 怎么 开 中 断 。 

由 此 来 看 ,虽然 HandleDeferredProcessing 是 由 NDIS 框架 提供 的 ,但 实质 上 也 执行 由 小 
问 口 驱动 提供 的 方法 : 
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> 中 断 服 务 例 程 后 半 段 函数 MiniportHandleInterrupt , 该 函数 调用 小 端口 驱动 提供 的 
HandleReceive/ HandleTransmit 方法 。 
> 采用 KeInsertQueueDpe 方法 将 小 端口 驱动 提供 的 DPC 国 数 MiniportDPC 插入 DPC 队 
列 中 ,这 是 第 二 个 DPC 函数 。MiniportDPC 函数 从 小 端口 驱动 的 工作 项 队列 中 取出 一 
项 ,根据 工作 项 的 类 型 来 调用 小 端口 特征 块 中 的 SendPacketsHandlers/SendHandler 等 
函数 ,最 终 调用 NIC 驱动 提供 的 NICTransmit 等 接口 , 它 也 是 真正 处 理 网 络 包 的 函数 。 
除 此 之 外 有 一 些 信 息 查 询 和 设置 的 操作 也 会 在 该 图 数 中 处 理 , 例 如 MiniDoRequest 郴 
数 。 不 过 MiniportDPC 主要 用 于 处 理 网 络 包 的 发 送 。 
> 采用 小 端口 驱动 提供 的 方法 NICEnableInterrupt 开 中 畏 [ 。 
从 图 17 -19 可 以 看 出 ,网 络 包 的 接收 并 没有 在 第 二 个 DPC 中 处 理 , 实 际 上 HandleReceive 
的 调用 是 在 执行 小 端口 驱动 的 中 断 处 理 例 程 的 后 半 段 ,这 是 在 HandleDeferredProcessing 中 被 调 
用 的 ,也 就 是 第 一 个 DPC 中 被 调用 的 。 


NIC 设 备 
以 太 网 接口 必 月 
接收 缓冲 区 | 发 送 组 冲 区 


每 当 识 别 出 巾 与 帧 的 边界 就 产生 


a r--- 中 断 ， 使 HandleReceive 谈 取 下 一 
HandleReceive Le--， 帧 ， 这 是 由 小 端口 驱动 提供 的 图 数 
时 用 
ee 
调用 由 小 端口 驱动 提供 ， 从 


网 卡 芯片 中 读 取 数 据 
NICIndicatePacket l= ----- 


车 用 
这 是 由 NDIS 框 架 提 供 的 图 数 ， 回 
----- 上 屋 递 交 收 到 的 包 ， 但 实际 上 调 
用 小 端口 驱动 提供 的 上 交 函 数 


时 骨 
Ee Ts 这 是 由 小 端口 
EthRxlndicateHandler 驱动 提供 的 函数 
调用 
二 | WE 

提交 给 所 有 绑 定 到 这 个 小 端口 驱动 上 [MinimdicateData |=- ee 
的 协议 驱动 ， 这 些 回 调 函数 是 通过 卜 到 提供 的 国 
PROTOCOL _BINDING 数 据 结 构 传 凋 用 

瘦 到 小 端口 驱动 的 ， 对 小 端口 驱动 一 一 一 
的 ProtocolListHead 队 列 中 的 每 个 元 上 层 驱 动 提 供 的 授 收 回调 函数 


素 调 用 其 ReceiveHandler 方 法 


图 17 -19 网 卡 接收 到 网 络 包 后 的 向 上 投递 过 程 


网 络 包 的 接收 和 发 送 是 个 复杂 烦琐 的 过 程 ,小 端口 驱动 和 NDIS 框架 的 方法 被 交叉 调 
用 ,这 也 是 网 络 协议 栈 驱动 的 复杂 性 之 一 。 
执行 完 上 述 流程 后 , 即 通 过 MiniIndicateData 将 网 络 包 投 递 到 上 层 驱 动 后 ,小 端口 驱动 的 中 
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JG 
汤 人 处 理 例 程 的 后 半 段 ( MiniportHandleInterrupt ) 也 就 完成 了 ,HandleDeferredProcessing 也 随即 执 
行 完 成 。 这 里 仍然 是 第 一 个 DPC。 接 下 来 执行 小 端口 驱动 提供 的 DPC 果 数 (MiniportDpc ) ,这 


小 端口 驱动 LOGICAL ADAPTER 


WorkQueueHead r- 7 


NIC ADAPTER 
图 17-20 协议 驱动 向 小 端口 驱动 发 送 网 络 包 的 过 程 

在 LOGICAL_ADAPTER 结构 中 有 个 工作 项 队列 WorkQueueHead 专门 用 于 发 送 网 络 包 ， 
当 协 议 驱 动向 小 端口 驱动 投递 发 送 的 网 络 包 时 首先 挂 人 该 队列 , 当 需 要 发 送 的 时 候 再 将 网 
络 包 挂 人 NIC_ADAPTER 的 工作 项 队列 TXQueueHead ,这 是 更 底层 ,也 就 是 NIC 层 的 发 送 队 
列 ,是 专门 与 发 送 芯片 打交道 的 底层 队列 。 如 果 发 送 缓冲 区 为 空 则 立刻 摘 下 网 络 包 发 送 ,和 否 
则 要 等 待 NIC 芯片 发 送 完 当 前 包 后 触发 中 断 通 知 , 在 中 断 服 务 例 程 中 处 理 TXQueueHead 上 
的 发 送 。 挂 载 在 TXQueueHead 上 的 网 络 包 是 NDIS_PACKET 结构 采用 NICTransmit 接口 进 
行 发 送 , 从 发 送 接口 的 名 称 中 也 可 以 感受 到 这 个 底层 接口 浓 浓 的 “ 便 件 风格 ”。 


17.3 协议 驱动 


我 们 所 说 的 协议 驱动 就 是 指 TCP/AIP 协议 驱动 ,具体 的 映像 是 tepip. sys ,其 大 致 对 应 协议 
栈 的 链 路 层 ,网络 层 和 传输 层 的 下 半 部 分 。 协 议 驱 动 是 socket 机 制 实现 的 基础 。 如 图 17 -21 
所 示 的 协议 驱动 tepip. sys 的 依赖 库 。 

pp 


Module Name Imperts TimeDateSta,. | ForwarderCha...| Name RVA FTs (LAT) 


szAnsi 
ntoskrnl,exe 
NETIO.SYS 
NDIS.SYS 
FLTMGR.SYS 
fwpkclnt.sys 
HAL.dll 
ksecdd.sys 


msrpe.sys 


(nFunctians) 


001D3F88 
001D4648 
O01D4CBS 
O01D4E08 
001D4E20 
O01DAF28 
O01D4F38 
DO1D4FED 
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Cwerd 

D001D3F74 
O01D3F68 
001D3F5C 
001D3F50 
O01D3F40 
001D3F38 
001D3F2C 
O001D3F20 


Dweord 


0013E000 


0013E6C0 
0013ED30 
0013EE80 
0013EES8 
0013EFAO 
0013EFB0 
0013F058 
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1. 协议 驱动 初始 化 

我 们 先 来 看 tcpip. sys 的 人 口 困 数 DriverEntry ,在 该 图 数 中 要 完成 如 下 工作 ， 

(1) 创建 若干 设备 对 象 ;:Device \IP .Device\TCP .Device\UDP .Device\RawIP 等 ,这 几 个 
设备 对 象 的 类 型 都 为 FILE_DEVICE_NETWORK ,如 图 17 - 22 所 示 , 不 过 链 路 层 是 没有 独立 
设备 对 象 的 ,这 几 个 都 是 传输 层 或 网 络 层 的 设备 。 注 意 它 们 都 属于 同一 个 驱动 对 象 ,因此 也 


Device\lP Device\RawlP Device\UDP Device\TCP 


FILE_DEVICE_NETWORK 类 型 
17 -22 tcpip. sys 创建 的 4 个 设备 对 象 


(2) 分 配 用 于 TDIEntityID 的 数组 的 内 存 。 

(3) 分 配 用 于 NDIS_PACKET 缓存 数组 的 内 存 , 并 以 全 局 指针 GlobalPacketPool 指 回 这 
个 缓冲 区 。 

(4) 初始 化 三 个 队列 :AddressFileListHead 、ConnectionEndPointListHead InterfaceListHead 。 

(5) 针对 步骤 (1) 中 创建 的 4 个 设备 对 象 执 行 相应 的 局 动 图 数 :IPStartup 、 RawIPStartup 、 
UDPStartup 和 TCPStart。 其 中 IPStartup 的 主要 执行 步骤 包括 : 

J 预先 分 配 用 于 IP 数据 包 片 段 拼 装 恢 复 的 缓冲 区 队列 。 

@) 通过 RouterStartup 启动 路 由 机 制 。 

(3) 使 用 IPRegisterProtocol 对 协议 表 ProtocolTable 初始 化 。 ProtocolTable 用 于 保存 传输 
层 回 网 络 层 注册 的 回调 函数 , 即 对 应 四 层 协 议 的 处 理子 数 指针 , 默认 初始 信 均 为 
DefaultProtocolHandler。 当 传输 层 启 动 限 数 ( UDPStartup/ TCPStart 等 ) 执 行 时 再 用 实际 的 图 数 
指针 答 换 和 获 盖 。 

(6) 执行 LANStartup .LANRegisterProtocol .LoopRegisterAdapter。 其 中 LANRegisterProtocol 
用 于 向 NDIS 框架 注册 协议 驱动 的 回调 函数 ;LoopRegisterAdapter 用 于 向 NDIS 框架 注册 环 回 
网 卡 驱 动 的 回调 浮 数 。 环 回 网 卡 是 个 虚拟 网 卡 ,IP 包 的 环 回流 程 是 在 tepip. sys 模块 内 部 进 
行 的 ,不 会 流转 到 下 层 驱 动 (小 问 口 驱动 ) 中 。 LoopRegisterAdapter 的 执行 步骤 如 下 : 

中 通过 ExInitializeWorkItem 方法 创建 一 个 环 回 工作 项 (LoopWorkItem ) ,该 工作 项 用 于 
处 理 环 回 包 的 接收 (实际 处 理 函数 为 LoopReceiveWorker) , 一旦 有 需要 即将 其 挂 人 内 核 工作 
线程 的 工作 项 队列 中 。 

@g) 初始 化 绑 定 信息 的 参数 包括 环 回 网 卡 发 送 图 数 指针 Loop Transmit 和 并 以 绑 定 信息 
为 参数 通过 IPCreateInterface 方法 为 环 回 网 卡 创建 一 个 IP_INTERFACE 数据 结构 ,该 结构 代 
表 一 块 网 卡 。 

G@) 通过 IPRegisterInterface 将 上 述 创 建 的 IP_INTERFACE 结构 添加 到 路 由 表 中 ,同时 也 
将 其 挂 人 InterfaceListHead 队列 中 ,该 队列 是 个 全 局 队列 ,代表 所 有 的 网 卡 结构 的 集合 。 
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(7) 设置 TCP/IP 协议 驱动 的 主 功能 郧 数 : 

> IRP_MJ_ INTERNAL _ DEVICE CONTROL :TiDispatchInternal ; 

> IRP_MJ_ DEVICE_ CONTROL :TDispatch ; 

> IRP_ MJ_ CREATE IRP MJ_CLOSE JIRP MJ CLEANUP.TiDispatchOpenClose, 

协议 驱动 不 支持 IRP_MJ_READ 和 IRP_MJ_WRITE 两 个 主 功 能 码 , 网络 报 文 的 收发 是 
通过 功能 码 IRP_MJ_INTERNAL_DEVICE_CONTROL 实现 的 。 但 在 AFD (辅助 功能 驱动 ) 
中 ,IRP_MJ_READ 和 IRP_MJ_WRITE 是 起 作用 的 ,NtReadFile 和 NtWriteFile 正 是 通过 这 两 
个 主 功能 人 码 实 现 了 报 文 的 读 写 。 

(8) 初始化 网 络 事件 超时 处 理 清 数 (IPTimeout) ,并 使 之 作为 一 个 工作 线程 的 工作 项 ; 初 
始 化 网 络 事件 超时 的 DPC 机 制 (IPTimeoutDpcFn) ;初始 化 网 络 事件 定时 天 IPTimer。 

tcpip. sys 没有 AddDevice 负数 ,这 意味 者 上 述 4 个 设备 对 和 象 不 会 被 堆 秋 到 别 的 设备 之 
上 ,至 少 不 会 通过 AddDevice 来 堆 禾 设备 。 因 此 执行 完 人 人口 卫 数 DriverEntry , tepip. sys 驶 可 
以 正常 工作 了 。 接 下 来 我 们 来 探讨 一 下 tepip. sys 模块 的 数据 接收 和 发 送 。 

2. 协议 驱动 接收 网 络 包 

在 小 端口 驱动 中 ,网 卡 接收 到 网 络 包 (数据 帧 ) 之 后 一 路 回调 ,最 后 对 小 端口 驱动 的 
ProtocolListHead 队列 中 的 所 有 元 素 ( 每 个 元 率 痢 代表 了 一 个 协议 驱动 ) 调 用 ReceiveHandler 方 
法 ,在 tepip. sys 模块 中 这 个 方法 指向 ProtocolReceive 函数 。 我 们 来 看 这 个 函数 的 执行 过 程 : 

(1) 通过 AllocatePacketWithBuffer 分 配 和 初始 化 NDIS 数据 包 NdisPacket 。 

(2) 通过 NdisTransferData 方法 将 网 卡 驱 动 回 调 上 来 的 数据 帧 转化 为 NdisPacket。 
NdisTransferData 虽然 是 由 NDIS 框架 提供 的 ,但 鉴于 各 个 网 卡 驱 动 回调 上 来 的 网 络 帧 可 能 格 
式 不 一 样 , 因 此 NdisTransferData 会 通过 调用 各 个 网 卡 驱动 的 TransferDataHandler 哨 数 来 复 
制 帆 ,只 有 各 个 网 卡 驱动 才 知 壹 这 些 网 络 帧 要 怎么 转化 。 

(3) 执行 ProtocolTransferDataComplete ， 将 NdisPacket 上 交 到 网 络 层 。 由 于 链 路 层 设 备 
没有 独立 的 设备 对 象 , 因此 没有 办 法 被 上 层 应 用 下 接 调 用 ,只 能 在 这 里 继续 同上 提交 。 
ProtocolTransferDataComplete 将 LanReceiveWorker 图 数 作为 工作 项 搬 人 内 核 工作 线程 中 , 且 
这 个 工作 项 是 被 插入 紧急 队列 CriticalWorkQueue 中 的 。 

在 不 同 的 中 断 请 求 级 别 下 LanReceiveWorker 的 执行 时 机 是 不 一 样 的 ,如 图 17 -23 所 示 
首先 判断 是 最 低 优先 级 还 是 更 高 优先 级 : 


PASSIVE LEVEL? 


LanRecelveWorker [loQueue Workltem 


17 一 23 不同 中 断 请 求 级 别 下 LanReceiveWorker 的 执行 时 机 


> 在 PASSIVE_LEVEL 级 别 时 直接 执行 ; 
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> 在 更 高 级 别 时 需要 等 降 到 PASSIVE_LEVEL 级 别 时 才 可 以 执行 ,因此 将 该 工作 项 挂 人 内 
核 的 工作 队列 CriticalWorkQueue 是 为 了 等 竺 中断 请 求 级 别 下 降 , 这 就 是 
IoQueueWorkItem 的 作用 。 当 内 核 工作 线程 被 调度 时 这 些 工 作 请 求 日 然 会 被 逐一 执行 。 

LanReceiveWorker 的 执行 流程 如 图 17 一 24 所 示 : 

(1) 通过 NdisGetFirstBufferFromPacket 从 NDIS 包 中 获取 所 承载 的 以 太 帆 。 

(2) 获取 以 太 帧 后 调用 IPReceive/ ARPReceive 子 数 将 数据 向 上 层 回调 。 

(3) 最 后 通过 协议 表 ProtocolTable 对 应 的 索引 (TCPZUDP 等 ) 获 取 对 应 的 四 层 处 理 洛 

数 (TCPReceive/UDPReceive) 进行 处 理 , 这 时 网 络 包 上 升 到 了 传输 层 。 


NdisGetFirstBufferFromPacket 


遇 几 网 用 


TIPv6Recelwve IPv4Recelve 
调用 


ij 周 用 员 用 UDPReceive 
时 用 
ICMPReceive IPDispatchProtocol Protocol Table TCPRecelve 


图 17 一 24 LanReceiveWorker 的 执行 流程 


进入 四 层 协 议 后 ,我 们 以 UDPReceive 为 例 来 讲解 在 传输 层 的 回调 . 

(1) 通过 AddrSearchFirst, 以 目标 IP 地 址 和 目标 端口 (Port) 为 索引 在 路 由 表 中 搜索 地 址 
文件 ,地 址 文件 换 述 了 协议 类 型 以 及 目的 端的 了 PP 地 址 和 闯 口 。 

(2) 如 果 发 现 了 相符 合 的 插口 (socket) 则 调用 DGDeliverData 方法 投递 这 个 网 络 包 。 

(3) 如 果 没 有 发 现 相 符合 的 socket, 则 向 下 回复 ICMP 消息 ,表示 器 口 或 地 址 不 可 达 。 

在 路 由 表 AddressFileListHead 队列 中 存放 了 者 干 地 址 文件 结构 ADDRESS_FILE ,每 个 这 
样 的 结构 代表 了 一 个 插口 ,就 是 我 们 常 说 的 socket。 在 socket 中 包括 了 三 元 组 数据 :协议 类 
型 (TCPZUDP) 目的 并 IP 地址 \ 目 的 端 问 口 。 无 论 是 TCP 还 是 UDP ,都 存在 上 述 三 元 组 数 
据 , 以 便于 相同 协议 的 数据 包 寻 找 目 的 地 址 。 

进行 到 这 里 ,数据 包 在 传输 层 的 “游历 "就 告 一 段落 了 ,再 往 上 就 是 通过 socket 向 应 用 程 
序 返 回收 到 的 数据 了 。 这 就 是 AFD 要 做 的 事情 了 。 

3. 协议 驱动 发 送 网 络 包 

仍 以 UDP 为 例 , 在 tcpip. sys 中 UDP 报 文 的 发 送 采 用 的 是 IPSendDatagram 方法 (本 质 上 
是 调用 SendFragments 方法 ): 
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(1) 通过 AllocatePacketWithBuffer 创建 和 分 配 一 个 NDIS 包 NdisPacket。 

(2) 调用 IPSendFragment 发 送 上 述 NdisPacket ,这 个 NdisPacket 是 发 往 相 邻 节 点 的 。 

所 袁 相 邻 方 点 就 是 NEICHBOR_CACHE_FENTRYCNCE) 数据 结构 ,这 个 数据 结构 包含 了 
目的 市 点 的 MAC 地 址 等 信息 。 我 们 知道 ,网 络 包 发 送 和 接收 的 时 候 , 在 网 关 或 目的 端 之 间 
部 是 以 MAC 地 址 为 标识 进行 传输 的 。 例 如 在 局 域 网 中 , NEIGHBOR_CACHE_ENTRY 的 
MAC 地 址 可 能 是 目的 端的 MAC 地 址 ;而 在 跨 网 出 局 域 网 传输 的 情况 下 ,MAC 地 址 可 能 就 是 
网 关 的 MAC 地 址 了 。IPSendFragment 就 是 将 NDIS 包 发 送 到 这 个 MAC 地 址 ,发 送 完了 就 不 
管 了 ,就 认为 已 经 发 送 到 目的 咒 了 (这 也 是 UDP 的 特点 ) ,不 同 层 的 协议 和 驱动 不 会 单独 考 
处 最 终 的 发 送 结 采 , 发 送 的 结果 应 该 由 整个 协议 栈 和 对 应 的 驱动 一 起 保证 。 

IPSendFragment 的 执行 步 又 还 是 比较 素 琐 的 : 

(1) 分 配 一 个 NEIGHBOR_PACKET 数据 结构 ,使 用 NdisPacket 初始 化 该 结构 。 

(2) 将 NEIGHBOR_PACKET 结构 挂 入 NCE 的 PacketQueue 队列 。 

(3) 通过 NBSendPackets 局 动 队 列 发 送 机 制 : 先 从 NCE 的 PacketQueue 队列 中 取出 一 
项 ,再 调用 NCE 的 Interface( 代表 网 卡 ) 的 Transmit 方法 进行 发 送 ,这 是 个 链 路 层 的 发 送 图 
关 f ,在 tecp1ip. sys 中 的 实现 是 LANTransmit。 

稍 早 一 点 版 本 的 协议 驱动 不 仅仅 实现 了 常规 的 TCP/P 协议 ,也 可 以 通过 添加 过 滤 驱 动 
或 采用 挂钩 机 制 实现 IPSec \IP 过 小 硕 、 防 火场 和 NAT 功能 ,如 图 17 - 25 所 示 。 不 过 随 看 
Windows 版 本 的 演进 ,新 的 网 络 体系 结构 (Window 过 滤 平 台 ) 将 这 些 具体 的 网 络 应 用 功能 剥 


mternet 连 接 共享 

Windows sockets we 讲 
用 十 师 选 传 入 
和 传 出 的 人 P 包 

| 驱动 
topiprsys 
IPsec 驱动 
TCP/P 范 动 
图 17 -2S tcpip.sys 中 用 于 IP 包 处 理 的 组 件 
17.4 AFD 


AFD( 辅助 功能 驱动 ) 是 Windows socket 机 制 的 重要 组 成 部 分 。 一 般 来 说 ,socket 机 制 的 
实现 可 分 为 用 户 态 空间 和 内 核 态 空间 两 部 分 ,用 户 态 空间 的 实现 是 ws2_32. dll 和 mswsock. 
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dll 等 (ws2_32. dll 只 是 公布 socket 接口 ,mswsock. dll 才 是 具体 socket 功能 的 提供 者 ) ,而 内 
核 态 空间 的 实现 就 是 AFD 。 

AFD 也 是 以 驱动 的 方式 存在 于 Windows 中 的 ,其 映像 文件 是 afd. sys。 图 17 -26 说 明了 
AFD 所 依赖 的 其 他 的 系统 或 DLL 模块 。 


Module Name Imports I TimeDateSta,. |ForwarderCha..| Name RVA 


szAnsi (nFunctions) 
ntoskrnl.exe 

TDOLSYS 

NETIOQ.SYS 


msrpc.sys 
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可 以 看 到 ,afd. sys 除了 依赖 内 核 ( ntoskrnl. exe ) .NetBIOS 等 ,还 依赖 我 们 在 后 面 草 方 要 
探讨 的 TDI 模块。AFD 的 入口 函数 仍然 是 DirverEntry ,其 主要 工作 是 创建 AFD 设备 对 象 , 初 
始 化 功能 函数 数组 。 在 AFD 中 ,IRP_MJ_READ 和 IRP_MJ_WRITE 主 功 能 码 是 有 效 的 ,与 
IRP_MJ_CREATE IRP_MJ_CLOSE 和 IRP_MJ_DEVICE_CONTROL 一 样 ,对 应 的 主 功能 函数 
部 是 AfdDispatch ,在 AfdDispatch 方法 中 根据 副 功 能 码 的 不 同 册 区 别 对 竺 ,如 图 17 -27 所 示 。 


IRP_MJ_CREATE : AfdCreateSocket 


IRP MJ CLOSE : AfdCloseSocket 
IRP_M]J READ : AfdConnectedSocketReadData 
IRP_ MJ WRITE : AfdConnectedSocketWriteData 
IOCTIL AFD BIND : AfdBindSocket 
IOCTL_AFD_CONNECT : AfdStreamSocketConnect 
IQOCTL_AFD START_LISTEN : AfdListenSocket 
AFD 功 能 函数 上 IOCTL AFD_RECV : AfdConnectedSocketReadData 
| IOCTL_AFD SELECT : AfdSelect 
| IOCTL_AFD _ EVENT_SELECT : AfdEventSelect 
IOCTL_AFD_ENUM_NETWORKk_ENENTS : AfdEnumEvents 
IOCTL_AFD_RECV_DATAGRAM : AfdPacketSocketReadData 
IOCTL_AFD SEND : AfdConnectedSocketWriteData 
IRP_M]J DEVICE CONTROL 可 IQCTL_AFD SEND DATAGRAM : AfdPacketSocketWriteData 
\ IOCTL_AFD _GET_INFO : AfdGetInfo 
IQCTL AFD GET_CONTEXT : AfdGetContext 
| IOCTL_AFD_SET_CONTEXT : AfdSetContext 
IOCTL_AFD _WAIT_FOR_LISTEN : AfdWaitForListen 
| IOcT L_AFD_ACCEPT : AfdAccept 
| IOCTL_AFD _DISCONNECT : AfdDisconnect 
IOCTL_AFD _GET_SOCK NAME : AfdGetSockOrPeerName 
IOCTL_AFD _GET_PEER NAME : AfdGetSockOrPeerName 
其 他 副 功 能 码 
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AFD 依然 没有 提供 AddDevice 方法 ,因此 AFD 设备 对 象 不 会 堆 冯 在 其 他 设备 之 上 ,这 些 
设备 就 是 TCP/IP 协议 驱动 所 形成 的 设备 ( Device \ UDP、Device \TCP 等 )。 但 是 AFD 中 
socket 需要 问 下 传输 的 数据 并 不 会 因为 设备 没有 堆 疼 就 不 往 下 传 了 ,而 会 通过 TDI 向 下 传 
输 。 由 于 tepip. sys 内 部 不 能 使 用 IRP 传递 读 写 数据 ,因此 堆 攻 了 也 没什么 用 ,IRP 传 不 下 
去 ,因此 要 在 TDI 层 将 IRP 转化 为 NDIS 包 才 能 继续 向 下 传递 。 

虽然 AFD 设备 没有 堆 著 在 其 他 设备 之 上 ,但 是 其 他 驱动 生成 的 设备 却 可 以 堆 秋 在 AFD 

设备 之 上 以 便 过 滤 socket 信息 ,如 图 17 一 28 所 示 ,360 杀毒 软件 生成 的 AntiHacker 设备 就 堆 
甘 在 AFD 设备 之 上 。 


eef 
DEY 如 eh Device Wane; {umrramed) 
-DEV \Devicea\360AntiHacker Driver Namne: |\Driver\3E0intiHacker 


田 -DRYV W \Driv ven\360Camera Device Object IDxFFFFFABDOADC5930 pspevice: [0z000000000000000 | Dpe 


Lriver Obiect: [OxFFFFFABONBS4COD | Devyice Dxll Dpe Reutire: DxO0onmoomoo 
Next Device: |daFFFFFABOMBOTEaD | Stack Size: a Dpe Mmber: 应 
机 ar Coumt: 


Bl iarment: Dad ~ haracteristi ea 


DRY Driver\AFLD ] : 
日 和 A i Wipb : DOO0NOo0oom0otom plags: 


日 一 DEV ‘Device\Afd iO 0 OR O000 Reference 应 Current Irp: Da0odonoooood 


— J Attached: lunnamed) - \Drivern\360AntiHacker ed ee BEStor 0 Dunire Dev DEFRFFEASOD 
-DRY “Orvervamdrata 


由 _DRY \DriverwsyncMac Interpreted De TInterpreted Device Flags: 
iTRELCT TD 

用 -DRY ‘Driven\beep - DRVYO_INITIALIZED 

四 一 DRY ‘Drven\blbdrnre 


17 一 28 ”AFD 设备 对 象 及 其 之 上 的 设备 


AFD 在 系统 中 的 位 置 如 图 17 -29 所 示 , 其 实现 了 传输 层 的 仿 上 层 的 逻辑 以 及 socket 的 
基础 操作 。socket 机 制 在 用 户 态 空间 的 实现 库 ws2_32. dl 和 mswsock. dll 等 模块 调用 ntdll. 
dl 中 的 相关 系统 调用 ,这 些 系统 调用 通过 LO 管理 带 问 AFD 发 送 对 应 的 IRP, 这 些 IRP 在 
AFD 中 被 翻译 成 NDIS 包 传 递 到 tcpip. sys 模块 中 。 由 于 Windows 不 直接 提供 socket 操作 
AP1, 只 提供 文件 操作 API, 因 此 必须 有 个 “中 介 机 构 ” 将 socket 操作 映射 到 文件 操作 API 上 ， 
这 就 是 ws2_32. dll 和 mswsock. dll 等 模块 的 由 来 (mswsock. dll 是 一 个 传输 服务 的 实现 者 , 通 
过 辅助 库 与 内 核 驱动 打交道 ,并 且 实 现 了 一 些 WinSock 的 扩展 函数 ;wshtcpip. dl 则 是 TCP/ 
IP 协议 的 辅助 库 ) 。 


服务 提供 者 | 


1| 签 
mntdll.dll 
NtReadFile 


NtWriteFile ， 
NtCreateFile ， 
NtDeviceloControlFile ， 用 户 态 空间 
内 核 态 衬 国 
teplp.sys 


图 17 -29 AFD 在 系统 中 的 位 置 
在 回 下 传递 的 过 程 中 ,TDI 起 着 隔离 AFD 与 协议 驱动 的 作用 。TDI 定义 了 主 功 能 码 和 
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副 功 能 码 的 含义 ,即使 下 层 的 协议 驱动 不 是 tepip. sys, 只 要 遵循 TDI 规定 的 功能 码 定义 也 可 
以 自己 实现 TCPZIP 协议 的 功能 。 

1. 创建 与 绑 定 socket 

下 面 我 们 来 看 一 下 socket 的 创建 与 绑 定 。 

socket 的 创建 是 通过 ws2_32. dll 中 的 WSPSocket 方法 实现 的 ,WSPSocket 的 工作 流程 大 
致 如 下 : 

(1) 通过 SockGetTdiName 根据 地 址 复 ,socket 类 型 协议 类 型 确定 TDI 的 服务 提供 者 的 
设备 名 。 其 中 

(地址 复 一 般 选 择 AF_INET\AF_INET6 类 型 ,表示 在 Windows 环境 下 的 IPv4\IPv6 

@) 常用 的 socket 类 型 包括 SOCK_STREAM( 流 式 传 输 ) SOCK_DGRAM( 数 据 包 式 传 
输 ) SOCK_RAW 等 。 

@ 协议 类 型 包括 TCP .UDP ICMP 等 ,分别 对 应 socket 的 上 述 几 种 类 型 。 因 此 ,确定 的 
TDI 服务 提供 者 的 设备 名 包括 Device\TCP、Device\UDP 和 Device\RawIP ,这 也 正 是 在 tcpip. 
SYyS 中 创建 的 几 个 设备 对 象 。 

(2) 根据 上 一 步 获 得 的 信息 创建 并 初始 化 socket。 

(1) socket 在 内 核 中 的 设备 对 象 是 Device\Afd\Endpoint ， 每 次 创建 socket 时 ,都 要 打开 这 
个 设备 对 象 (第 一 次 创建 socket 时 是 创建 Endpoint ,创建 后 也 要 打开 ) 。 

@g) 既然 是 打开 ,就 会 有 相应 的 文件 对 象 代 表 本 次 的 打开 会 话 , 这 是 因为 每 次 打开 时 的 
参数 可 能 不 同 , 因 此 无 法 在 一 个 设备 对 象 中 保存 所 有 的 打开 会 话 及 其 参数 ,只 能 是 每 次 打开 
都 由 一 个 数据 结构 保存 这 些 信息 ,这 就 是 文件 对 象 的 由 来 。 

(3) 打开 socket 的 文件 对 象 AFD_FCB ,这 是 专门 用 来 存储 socket 信息 的 数据 结构 。 打 开 
socket 的 时 候 , 通 过 系统 调用 NtCreateFile 将 socket 的 各 种 参数 作为 扩展 信息 传人 并 保存 在 
AFD_FCB 中 。 

(4) 这 里 要 注意 ,Device\Afd\Endpoint 设备 对 象 名 中 的 “Device\Afd”, 这 是 个 在 第 一 次 打 
开 socket 时 就 应 该 已 经 存在 的 设备 对 和 象 , 因 此 创建 /打开 socket 时 ,文件 系统 解析 到 这 里 会 
首先 执行 Device\Afd 的 设备 解析 困 数 lopParseDevice, lopParseDevice 的 主要 功能 包括 . 

a) 判断 "Device\Afd\Endpoint” 是否 存 在 ,如 果 不 存 在 就 创建 并 打开 ， et 
打开 意味 着 创建 一 个 文件 对 象 AFD_FCB 来 代表 本 次 对 socket 的 访问 ,打开 的 步骤 见 
一 步 。 

b) 下 发 主 功 能 码 为 IRP_MJ_CREATE 的 IRP 给 AFD, 表 示 创 建 socket。AFD 调用 主 功 
能 困 数 AfdDispatch ,AfdDispatch 峙 贡 用 AfdCreateSocket 来 创建 socket 。 

AfdCreateSocket 的 核心 操作 就 是 创建 一 个 AFD_FCB 数据 结构 ,并 利用 NtCreateFile 中 传 
下 来 的 扩展 信息 初始 化 AFD_FCB。AFD_FCB 中 比较 重要 的 数据 结构 有 : 

> PendingIRPList: 这 是 一 个 IRP 队列 数组 ,用 于 暂 存 异步 操作 的 IRP。 
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e。 许多 网 络 操作 是 可 以 并 行 的 ,因此 根据 操作 类 型 分 别 暂 存 IRP 有 助 于 加 快 并 行 
进度 。 
。 这 些 IRP 共 分 为 6 类 ,包括 CONNECT、RECV、SEND、PREACCEPT、ACCEPT 和 
CLOSE , 与 socket 的 操作 基本 一 致 。 

> DatagramList :协议 驱 动 已 经 接收 到 ,但 应 用 进程 尚未 取 走 的 UDP 包 。 

> PendingConnections :协议 驱动 已 经 接收 到 ,但 应 用 进程 尚未 取 走 的 TCP 包 。 

> Recv. Window : 接收 缓冲 区 大 小 。 

> Send. Window :发 送 缓冲 区 大 小 。 

因此 ,执行 完 AfdCreateSocket ,socket 的 创建 就 算 完 成 了 。 下 面 我 们 再 来 看 看 socket 的 
绑 定 。 

所 谓 绑 定 就 是 将 socket 与 IP 地 址 和 端口 相关 联 。 最 初创 建 的 socket 只 是 个 空 却 , 要 使 
用 socket 则 必须 将 它 与 菏 个 实际 地 址 相关 联 , 使 它 代 表 这 个 地 址 。socket 绑 定 是 通过 
ws2_32. dll 中 的 WSPBind 方法 实现 的 , WSPBind 又 通过 系统 调用 NtIoControl 将 绑 定 请求 下 
发 到 AFD 中 。 

socket 的 绑 定 操作 的 主 功能 码 为 IRP_MJ_DEVICE_CONTROL , 副 功 能 码 为 IOCTL_AFD_ 
BIND ,在 AfdDispatch 方法 中 其 对 应 的 处 理 图 数 为 AfdBindSocket。 

AfdBindSocket 的 核心 操作 包括 : 

(1) 执行 WormSocketForBind。 调 用 tdi. Sys 模块 中 的 TdiOpenAddressFile 方法 ,通过 这 
个 方法 调用 TdiOpenDevice 以 打开 Device\UDP 或 Device\TCP 等 设备 对 象 , 而 TdiOQpenDevice 
是 调用 ZwCreateFile 完成 这 个 打开 操作 的 。 

当 ZwCreateFile 将 请 求 转换 成 IRP 并 发 送 给 tcpip. sys 的 时 候 , 协 议 驱 动用 于 处 理 这 个 
操作 的 主 功能 负数 是 TiDispatchOpenClose: 

> 对 于 IRP MJ CREATE 主 功 能 码 操作 ,TiDispatchOpenClose 幸 用 TiCreateFileObject; 

> 对 于 IRP_MJ_CLEANUP 主 功 能 码 操作 ,TiDispatchOpenClose 调用 TiCleanupFileObject。 

以 TiCreateFileObject 的 UDP 方式 绑 定 为 例 , 绑 定 socket 时 调用 的 是 FileOpenAddress 方 
法 (建立 连接 时 调用 下 ileOpenConnection 方法 ,其 他 操作 时 调用 FileOpenControlChannel 方 
法 )。FileOpenAddress 首先 分 配 一 个 地 址 文件 ADDRESS_FILE 结构 ,地 址 文件 代表 了 一 个 
IP + PORT; 然 后 对 ADDRESS_FILE 进行 初始 化 ,ADDRESS_FILE 的 Send 函数 指针 设置 为 
UDPSendDatasgram ,并 初始 化 ReceiveQueue 和 TransmitOueue 两 个 队列 ;最 后 将 ADDRESS_ 
FILE 结构 挂 人 AddressFileListHead 队列 中 ,如 图 17 -30 所 示 。 至 此 TiCreateFileObject 执行 


完毕 。 


(2) 执行 TdiReceiveDatagram。 启 动 下 层 的 接收 机 制 , 即 挂 入 一 个 接收 使 能 请 求 以 表达 
接收 的 意愿 。 这 个 接收 请 求 是 一 个 类 型 为 TDI_RECEIVE_DATAGRAM 的 IRP, 并 且 该 IRP 
的 完成 例 程 为 PacketSocketRecvComplete。 
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绑 定 地 址 FileOpenAddress | 分 配 一 个 ADDRESS FILE 
六 在 
TiCreateFileObject 建立 连接 FileOpenConnection 初始 化 ADDRESS FILE 
l . 将 ADDRESS FILE 挂 入 
J 所 让 一 
其 他 操作 FileOpenControlChannel AddressFileL itHead 中 


17 -30 TiCreateFileObject 的 调用 流程 


tcpip. sys 处 理 这 个 IRP ,将 这 个 请 求 挂 入 地 址 文件 AddressFile 的 ReceiveQueue 队列 中 ， 
并 设置 该 请 求 的 完成 图 数 为 DGReceiveComplete ,用 户 完 成 图 数 为 DispDataRequestComplete。 
其 具体 的 执行 过 程 我 们 在 “UDP 包 的 接收 ”部 分 会 详细 介绍 。 

2. UDP 包 的 发 送 

为 了 加 深 理解 ,我 们 再 来 考察 一 下 UDP 包 的 发 送 和 接收 , 先 来 看 UDP 的 发 送 。 

AFD 的 AfdPacketSocketWriteData 男 数 是 发 送 UDP 包 的 具体 执行 者 , 其 调用 
TdiSendDatagram 方法 进行 以 下 操作 (如 图 17 -31 所 示 ): 

(1) 创建 主 功能 码 为 IRP_MJ_DEVICE_CONTROL 副 功能 码 为 TDIL_ SEND_DATAGRAM 
的 IRP, 这 是 通过 TdiBuildInternalDeviceControllrp 方法 实现 的 。 

(2) 使 用 TdiBuildSendDatagram 进一步 构造 IRP, 这 一 步 主 要 是 将 革 些 困 数 指针 赋值 
给 IRP。 

(3) 调用 TdiCall 方法 下 传 IRP。 注 意 , 这 里 TdiCall 的 参数 DeviceObject 是 tepip. sys 创 | 
建 的 Device\UDP 设备 对 象 。TdiCall 本 质 上 是 调用 IoCallDriver 进行 IRP 的 下 传 ,并 等 待 下 
传 事件 的 完成 。 

(4) tcpip. sys 收 到 IRP 后 调用 功能 水 数 TiDispatchInternal, 当 鉴 别 出 副 功能 码 为 TDI 
SEND_DATAGRAM 时 调用 子 功 能 函数 DispTdiSendDatagram 进行 发 送 。 

(5) DispTdiSendDatagram 搜索 地 址 文件 ,找到 符合 源 地 址 的 AddressFile( ADDRESS_ 
FILE 类 型 ) ,并 调用 地 址 文件 的 Send 方法 ,在 这 里 就 是 UDPSendDatagram 。 

(6) UDPSendDatagram 首先 创建 一 个 UDPPacket (由 BuildUDPPacket 创建 ) ,再 调用 
IPSendDatagram 方法 进行 发 送 。IPSendDatagram 发 送 时 不 是 通过 IP 地 址 和 端口 号 来 发 送 ， 
而 是 通过 NCE( NEIGHBOR_CACHE_ENTRY ) 来 发 送 , 这 表明 IPSendDatagram 的 人 处理 已 经 到 
了 链 路 层 。 

上 述 步 又 中 ， IPsendDatasgram 在 发 送 的 时 候 会 将 完成 困 数 指针 传 进去 ,也 就 是 说 发 送 完 
成 后 完成 图 数 UDPSendPacketComplete 会 被 调用 ,这 是 tcpip. sys 中 的 函数 ,用 于 通知 tcpip. 
sys 模块 UDP 包 已 经 发 送 完 成 。 
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岗 用 


WapPsendlJo Fr------ ws2 32.dll 


册 用 


NtDeviceloControlFile he------ ntdll.dI1l 


共用 


atd.svys 


IRP MJ DEVICE CONTROL i 
IOCTL AFD SEND DATAGRAM:--------------+-------------- 


atdPacketSocketWriteData 


LO 管理 器 


TdisendDatagram 


DispTdiSendDatagram 


[RP | 
TiDispatchinternal 


| 


UDPSendDat 


NDIS 


小 端口 驱动 


图 17 -31 UDP 包 发 送 的 全 流程 


从 图 17 -31 的 流程 来 看 ,创建 和 绑 定 socket 时 也 下 发 了 一 个 表达 接收 意愿 的 请 求 , 这 
相当 于 给 出 了 一 个 初始 的 动能 。 

3. UDP 包 的 接收 

接 下 来 我 们 来 考察 较为 复杂 的 UDP 包 的 接收 。 

与 发 送 类 似 , 接 收 也 是 从 应 用 进程 ,ws2_32 .LO 管理 硕 这 条 纵 线 开 始 的 ,如 图 17 -32 所 
示 。 但 是 接收 表面 上 看 似乎 是 个 被 动 的 行为 ,其 发 起 方 应 该 是 底层 的 驱动 ,应 用 进程 反而 是 
被 调用 的 一 方 , 其 实 不 尽 人 然 ,接收 是 个 特殊 的 过 程 ,分 为 两 部 分 :表达 接收 意愿 和 同上 投递 数 
据 报 文 。 我 们 先 来 看 看 怎样 同上 投递 。 

1) 加 上 投递 数据 报 文 

我 们 先 来 看 投递 数据 报 文 的 过 程 。 

AFD 的 AfdPacketSocketReadData 消 数 是 投递 UDP 数据 包 的 具体 执行 者 ,其 执行 过 程 
如 下 : 


一 一 一 一 | 


AddressFileListHead 
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应 用 进程 
时 用 


WSPRecvyFrom ---- Ws2 32.dll 


里 用 


NtDeviceloControlFile le ---- ntdll.dIll 


时 用 


ntoskrnl.exe atd.sys 


IRP MJ DEVICE CONTROL 
IOCTL AFD RECV DATAGRAM 


LO 管理 器 AfdPacketSocketReadData 


判断 


AFD FCB.DatagramList 


IRP 挂 入 PendingIrpList 呵 上 违 安 UDP 包 


图 17-32 UDP 包 的 接收 过 程 
(1) 分 配 内 存 描述 符 表 (MDL ) ,将 AFD_RECV_INFO_UDP 数据 结构 映射 到 内 核 态 空 
间 ,这 个 数据 结构 的 具体 域 是 这 样 的 : 


typedef struct AFD RECV INFO UDP 
{ 


A 


PAFD WSABUF BufferArray; / /存储 接收 的 内 容 
WINDOWS: :ULONG BufferCount; 
WINDOWS: :ULONG AfdFlags; 
WINDOWS : :ULONG TdiFlags; 
WINDOWS: :PVOID Address; / /PSOCKADDR_IN 结构 ,存储 IP 地 址 和 端口 号 
WINDOWS: :PINT AddressLength.; 
}AFD RECV INFO UDP, # PAFD RECV INFO UDP:; 


AFD_RECV_INFO_UDP 用 于 UDP 包 的 接收 ,其 BufferArray 域 是 接收 缓冲 区 ,这 是 个 
AFD_WSABUF 结构 的 指针 ,在 IRP 中 有 域 值 与 其 对 应 绑 定 ,可 采用 方法 LockRequest 将 IRP 
与 AFD_RECV_INFO_UDP 结构 (其 实 是 AFD_WSABUF) 绑 定 。 

(2) 判断 AFD_FCB 的 DatagramList 队列 中 是 否 已 经 存在 来 自 于 下 层 的 UDP 包 。 

> 如 果 存 在 则 立即 摘除 一 个 UDP 包 。UDP 包 的 结构 是 AFD_ STORE_DATAGRAM ,将 这 

个 结构 的 内 容 复 制 到 用 户 态 空间 缓冲 区 (通过 SatisfyPacketRecvRequest 方法 实现 ) ， 
用 户 态 空间 缓冲 区 就 是 IRP 中 市 下 来 的 AFD_WSABUF 结构 ,通过 MDL 将 结构 内 容 
映射 过 去 就 好 了 。 

> 如 果 不 存 在 则 将 IRP 挂 入 未 完成 队列 中 ,这 是 通过 LeavelrpUntilLater 方法 实现 的 。 

这 里 的 未 完成 队列 是 AFD_FCB 的 队列 数组 PendinglrpList 的 FUNCTION_RECYV 元 
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素 ,表示 有 相应 的 接收 操作 没有 完成 。 
震 要 说 明 的 是 ,投递 UDP 包 也 分 为 两 个 部 分 ,以 AFD_FCB 的 DatagramList 为 界 , 下 层 驱 
动 将 接收 到 的 UDP 包 挂 载 到 这 个 队列 中 ,上 层 驱 动 也 是 在 这 个 队列 中 提取 UDP 包 并 向 上 投 
递 。 因 此 DatagramList 就 像 一 个 中 转 站 一 样 传递 着 收 到 的 报 文 。 
显而易见 ,上 述 过 程 摘 述 的 是 上 层 驱 动 对 UDP 包 的 提取 ,至 于 下 层 驱 动 对 UDP 包 的 挂 
载 投递 则 是 通过 tcpip. sys 中 的 DGDeliverData 方法 完成 的 。 
在 “协议 驱动 "一 节 中 ,我们 描述 了 tepip. sys 的 LanReceiveWorker 的 执行 过 程 ,这 是 在 内 
核 工 作 线 程 中 执行 的 图 数 。 其 中 执行 到 ProtocolTable 表 的 UDPReceive 时 ,通过 调用 
DGDeliverData 将 UDP 包 上 交 到 AFD 。 
前 文 讲 过 ,地 址 文件 ADDRESS_FILE 结构 代表 socket , 也 就 是 说 ,每 个 ADDRESS_FILE 
都 代表 了 协议 ,本 地 地 址 、 本 地 并 口 这 个 三 元 组 。 对 于 TCP 来 说 , 它 代 表 了 客户 端 /服务 冰 的 
地 址 和 端口 ;对 UDP 的 发 送 来 说 , 它 代表 了 打开 的 本 地 地 址 和 一 个 打开 的 UDP 端口 ( 源 地 址 
和 端口 ) 。 那 么 对 于 UDP 的 接收 来 说 ,ADDRESS_FILE 代表 了 UDP 包 的 目的 地 址 和 端口 。 
DGDeliverData 首先 获取 目的 端的 ADDRESS _ FILE ， 判 册 ADDRESS_FILE 的 RecelveWueue 
是 否 为 空 : 
> 如 果 ReceiveQueue 为 空 , 则 表明 目前 尚未 有 UDP 辣 口 开局 或 者 尚未 有 端口 有 接收 意 
愿 ,那么 接 下 来 判 电 ADDRESS_FILE 的 接收 事件 处 理 需 ( ReceiveDatagramHandler Bn 
数 ) 是 否 为 空 。 接 收 事件 处 理 硕 是 由 上 层 张 动 注册 的 。 
® ReceiveDatagramHandler 为 空 , 则 表明 这 个 ADDRESS_FILE 确实 没有 一 丁点 的 接收 
意愿 ,此 时 回复 ICMP 包 给 发 送 端 。 

e ReceiveDatagramHandler 不 空 ， 则 执行 Recei veDatasgramHandler。 

> 如 果 ReceiveQueue 不 为 空 , 则 表明 上 层 程 序 已 经 表达 了 接收 意愿 ,有 了 意愿 憾 要 满 
足 , 但 还 不 确定 疹 口 是 否 匹 配 。 此 时 要 上 比较 一 下 ReceiveQueue 中 的 每 个 有 接收 意愿 
的 端口 是 否 与 ADDRESS_FILE 的 端口 匹配 ,如 果 遇 到 了 匹配 的 ,就 将 接收 到 的 UDP 
包 中 的 Buffer 拷贝 到 接收 意愿 (DATAGRAM_RECEIVE_REQUEST 结构 ) 的 Buffer 中 ， 
并 调用 DATAGRAM_RECEIVE_REQUEST 的 完成 图 数 UDPReceiveComplete 来 通知 
上 技 。 

完成 限 数 UDPReceiveComplete 的 执行 过 程 如 下 . 

中 创建 一 个 AFD_STORED_DATAGRAM 数据 结构 ,将 接收 意愿 中 的 Buffer 拷贝 到 该 数 
据 结 构 的 缓冲 区 中 ,并 挂 入 AFD_FCB 的 DatagramList 中 。 

@ 判断 AFD_FCB 的 DatagramList 和 PendingIRPList[ FUNCTION_RECYV |] 是否 为 空 , 如 果 
都 不 为 空 , 则 从 DatagramList 中 获取 一 个 AFD_STORED_DATAGRAM 并 从 PendingIRPList 中 
获取 一 个 IRP ,调用 SatisfyPacketRecvRequest 回击 给 用 户 态 空间 缓冲 区 。 

@) 通过 TdiReceiveDatagram 继续 挂 人 一 个 新 的 接收 意愿 (DATAGRAM RECEIVE __ 
REQUEST) 。 
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从 这 个 完成 图 数 我 们 可 以 看 出 : 

tcpip. sys 的 DCDeliverData 与 接收 意愿 中 的 完成 子 数 UDPReceiveComplete 共同 完成 
了 UDP 包 投 递 的 下 层 部 分 。 

> 接收 意愿 是 随 看 UDP 包 的 上 报 而 不 断 消 耗 的 ,因此 要 在 完成 图 效 执行 过 程 中 补充 ， 
即 回调 上 去 一 个 UDP 包 就 补充 一 个 接收 意愿 。 

2) 表达 接收 意愿 

下 面 我 们 来 看 怎样 表达 接收 意愿 。TdiReceiveDatagram 方法 是 用 来 下 传 接收 意愿 的 ,其 

最 终 调 用 UDPReceiveDatasram , 如 图 17 一 33 所 示 。 接 收 意愿 的 首次 下 发 过 程 如 下 . 


WSPBind le------ ws2 32.dll 


NtDeviceloControlFile |=------ ntdll.dll tcpip.sys 
IRP MJ DEVICE CONTROL:------------ EE 


TiDispatehlnternal 
IOCTL AFD BIND |! 1 
IO 管理 器 一 一 AfdBindSocket ' IRP ' | DispldiReceiveDatagram 


图 17 -33 接收 意愿 的 首次 下 发 过 程 


(1) 创建 一 个 新 的 DATAGRAM_RECEIVE_REQUEST, 并 初始 化 其 中 的 成 员 变 量 。 
(2) 将 DATAGRAM_RECEIVE_REQUEST 挂 人 ADDRESS_FILE 的 ReceiveQueue。 
非常 简单 的 意愿 表达 。 通 常 是 在 绑 定 端口 的 时 候 下 发 第 一 个 接收 意愿 ,在 接收 到 UDP 


包 并 调用 完成 图 数 的 时 候 下 发 后 续 的 接收 意愿 ,以 此 来 驱动 源源 不 断 的 接收 过 程 。 
17.5 ”TDI/TDX 框架 


1. TDI 

TDI( Transport Driver Interface ,传输 驱动 接口 ) 是 Windows 系统 中 AFD 与 协议 驱动 之 间 
的 接口 规范 ,其 上 映像 文件 为 tdi. SVS。 但 是 在 Windows Vista 及 之 后 的 版 本 中 ,TDI 不 再 作为 
AFD 与 协议 驱动 的 接口 规范 ,而 代 之 以 TLNPI( Transport Layer Network Provider Interface, 传 
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输 层 网 络 提供 者 接口 )、Windows 过 滤 平 台 和 WSK( WinSock Kernel) 来 作为 新 的 接口 规范 ,如 
图 17 -34 所 示 ,因此 我 们 在 本 节 不 打算 详细 介绍 TDI。 


WSK 客户 问 TDI 客户 端 
AFD 


tecpip.sys 


Loopback| | IPv4 隧 道 


恒 17-34 Windows Vista 及 之 后 的 网 络 协议 栈 体系 结构 


TDI 分 为 TDI 传输 客户 疹 和 TDI 传输 服务 病 。 一 般 我 们 将 AFD 作为 TDI 传输 客户 新 ， 
意味 看 AFD 要 使 用 TDI 提供 的 服务 ,将 网 络 API 转换 成 IRP; 将 协议 驱动 作为 TDI 传输 服务 
端 ,意味 着 协议 驱动 是 TDI 服务 的 提供 者 。 

从 图 17 -35 可 以 看 出 ,TDI 模块 既 依 赖 内 核 (ntoskrnl. exe) ,也 依赖 NDIS 模块 。tdi. sys 
的 导出 区 数 如 图 17 -36 所 示 。 


Module Name Imports | TimeDateSta... | ForwarderCha...| Name RVA 


szAnsi (nFunctions) Dword 


ntoskrnl,exe 42 | | 0000A0D4 


NDIS.SYS 3 O0000A0C8 
17 一 35 ”tdi. sys 依赖 的 模块 


1) TDI 传输 客户 端 

TDI 传输 客户 端 采 用 地 址 对 象 来 代表 本 地 的 地 址 端点 (socket) ,包括 TCP 和 UDP 两 种 
通信 方式 中 的 地 址 ;但 是 目的 端的 地 址 冰点 (socket ) 是 采用 连接 对 象 来 表示 的 , 且 仅 限于 
TCP 通信 方式 ,因为 UDP 通信 方式 中 没有 连接 的 概念 。 图 17 -37 中 的 Address Object( 地 址 
对 象 ) 和 Connection Object( 连接 对 象 ) 都 是 用 于 表示 socket 的 , 且 都 是 FILE_OBJECT 类 型 ， 
因此 也 都 是 由 对 象 管理 大 创建 的 。 
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Function RVA Name Ordinal Name RVA 


Dword szAnsl 
00009488 TdiDefaultConnectHandler 
000094A1 TdiDefaultDisconnectHandler 
000094BD TdiDefaultErrorHandler 
000094D4 TdiDefaultRevDatagramHandler 
000094F1 TdiDefaultRcvExpeditedHandler 
0000950F TdiDefaultRecelveHandler 
00009528 TdiDefaultSendPossibleHandler 
00009546 TdiDeregisterAddressChangeH... 
00009568 TdiDeregisterDeviceObject 
TdiDeregisterNetAddress 
TdiDeregisterNotificationHandler 
TdiDeregisterpPnPHandlers 
TdiDeregisterProvider 
TdiEnumerateAddresses 
TdiGet9FTriageBlock 
Tdilnitialize 
TdiMapUserRequest 
TdiMatchPdoWithChainedRecei... 
TdIDpenNetbiosAddress 


TdiPnPPowerComplete 


17 一 36 tdi. sys 的 导出 函数 


Connection Object 
FILE OBJECT 


tcplp.SVS | 1 


‘Device\TCP ‘Device\ UDP 
‘Device\lP ‘Device\[PNMULTICAST ‘Device\RawlP 


17 -37 TDI 传输 客户 端的 地 址 对 象 


2) TDI 传输 服务 疹 

TDI 传输 客户 冰 通 过 IRP 与 TDI 传输 服务 端 之 间 通 信 , 这 主要 指 命令 的 下 发 ;TDI 传输 
服务 端 采 用 事件 回调 的 方式 加 TDI 传输 客户 端 通知 操作 结果 ,如 图 17 -38 所 示 。 例 如 TCP 
方式 通信 时 的 连接 操作 ,作为 发 起 者 ,TCP 客户 端 通过 IRP(TDI 主 功能 码 为 IRP_MJ_ 
DEVICE_CONTROL ,TDI 副 功 能 码 为 TDI_CONNECT) 通 知己 方 一 侧 的 TDI 传输 客户 端 ,使 
TDI 传输 客户 端 向 对 端 发 起 TCP 连接 ,如 图 17 -39 所 示 。 当 对 端 (TCP 服务 端 ) 接 受 了 连接 
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请 求 ,会 回 TCP 客户 闪 的 一 侧 返 回 接受 通知 (Accept) ,因此 TCP 客户 端 一 侧 的 TDI 传输 服务 
端 向 本 侧 的 TDI 传输 客户 端 返回 TDIL_ EVENT_CONNECT 的 事件 通知 ,如 图 17 一 40 所 示 。 


EVENTs( Callbacks) 


应 用 软件 开发 协议 栈 


IRP MJ CREATE 


IRP MJ DEVICE CONTROL/IRP MJ INTERNAL DEVICE CONTROL 


TDI SET EVENT HANDLER 


TDI ACTION 


TDI ASSOCIATE ADDESS/TDI DISASSOCLIATE ADDRESS 


TDI LISTENATDI ACCEPT 


TDI CONNECT/TDI DISCONNECT 

TDI SENDITDI SEND DATAGRAM 

TDI RECEIVE/TDI RECEIVE DATAGRAM 

TDI QUERY INFORMATIOMNTDI SET INFORMATION 


IRP MJ CLEANUP(Addr) 
IRP MJ CLOSE(Addr) 


TDI EVENT_CONNECT 
TDL EVENT 
TDI EVENT RECEIVE 


DISCONNECT 


TDI EYENT CHAINED RECEIVE 


TDI EVENT 


DATAGRAM 


TDI EVENT RECEIVE ExsPEDIATED 


TDI EVENT RECEIVE DATAGRAM 
TDI EVENT SEND POSSIBLE 


TDL EVENT ERROR 
TDL ERROR EX 


17 -38 ”TDI 传输 客户 端 与 TDI 传输 服务 端 之 间 的 交互 ( 图 片 来 自 CSDN) 


TDI 副 功 能 码 与 TDI 传输 客户 端的 IRP 之 间 也 是 一 一 对 应 的 , 它 与 构造 因数 的 关系 如 


表 17 一 1 所 示 。TDI 不 但 有 副 功能 码 , 还 有 知 干 回调 事件 ,这些 回调 事件 用 于 通知 AFD 驱动 


模块 TCP 握手 过 程 中 的 某 些 状态 ,其 定义 如 表 17 -2 所 示 。 
表 17-1 TDI 副 功能 码 与 TDI 传输 客户 端的 IRP 构造 函数 之 间 的 对 应 关系 


TDI_ASSOCIATE_ 
ADDRESS 


TDI_DISASSOCIATE_ 
ADDRESS 


TDI_CONNECT 
TDIL_LISTEN 
TDI_ACCEPT 


TDI_DISCONNECT 


TDI_SEND_ DATA 
GRAM 


TDI_ RECEIVE DATA 
GRAM 


TdiBuildAssociateAddress( ) 


TdiBuildDisassociateAddress( ) 


TdiBuildConnect( ) 
TdiBuildListen( ) 
TdiBumldAccept( ) 
TdiBumldDisconnect( ) 
TdiBumldSend( ) 


TdiBuildReceive( ) 


TdiBumldSendDatagram( ) 


TdiBuildReceiveDatagram( ) 


在 AFD/TCPIP 中 的 应 用 


将 TCP socket 的 地 址 与 连接 对 和 象 关联 起 来 


将 先前 地 址 与 连接 对 象 的 关联 解除 


初始 化 三 次 握手 (作为 客户 端 ) 
服务 端 处 于 监听 状态 

与 连接 对 端 断 开 连 接 

向 连接 对 端 发 送 流 数 据 (TCP 方式 ) 
从 连接 对 端 接收 数据 流 (TCP 方式 ) 


向 连接 对 端 发 送 数据 报 (UDP) 


从 连接 对 端 接收 数据 报 (UDP) 


“OY 第 17 章 Windows 网 络 协议 栈 驱 动 。 


续 表 17 -1 
在 AFDZTCPIP 中 的 应 用 


TDIL_SET_EVENT_ 


HANDI FR TdiBuildsetEventHandler( ) 


为 地 址 对 象 注册 /注销 事件 回调 


TDI_QUERY_INFOR 


TCP/AIP 协议 栈 查询 MIB 信息 
MATION 从 协议 栈 查 询 MIB 信 


TdiBmldQuerylntormation( ) 


TDL_SET_INFORMA 
TION 


TDI ACTION TdiBuildAction( ) 


表 17-2 TDI 事件 回调 的 定义 
在 AFDZTCP 中 的 用 途 
通知 afd. sys 上 行 的 TCP SYN 报 文 
通知 afd. sys. 上 行 的 TCP FIN 报 文 
TDI_EVENT_ERROR tcpip. sys 暂 不 支持 


TdiBuildSetInformation( ) 该 请 求 暂 时 不 被 tcpip. sys 支持 


该 请 求 暂时 不 被 tepip. sys 支持 


TDI_EVENT_CONNECT 
TDI_EVENT_DISCONNECT 


TDI_EVENT_RECEIVE 
TDL EVENT_RECEIVE DATAGRAM 


TDI_EVENT_RECEIVE_ 
EXPEDITED 


TDI_EVENT_SEND_POSSIBLE 
TDI_EVENT_CHAINED_RECEIVE 


TDI_EVENT_CHAINED_RECEIVE 
_DATAGRAM 


通知 afd. sys 上 行 的 TCP 数据 段 
通知 afd. sys 上 行 的 UDP 报 文 


通知 afd. SVS 上 行 的 TCP URGENT 报 文 ( 带 外 数据 ) 


tcpip. sys 暂 不 支持 
回调 基于 NDIS_BUFFER 描述 的 TCPZIP 数据 副本 


tcpip. sys 暂 不 支持 


TDI_EVENT_CHAINED_RECEIVE 
_EAPEDITED 


tcpip. sys 暂 不 支持 


TDI_EVENT_ERROR_EX 向 afd. sys 报告 目的 的 地 址 不 可 达 


从 图 17 -40 可 以 看 出 ,使 用 TDI 之 前 需要 设置 事件 通知 回调 图 数 ,而 创建 socket ` 绑 定 
socket 创建 连接 上 断 开 连接 等 均 在 TDI 的 主 副 功能 码 中 有 对 应 的 含义 。 

2. TDX 

由 于 Windows Vista 版 本 后 微软 不 再 支持 TDI, 转 而 采用 基于 TLNPI 的 技术 , 而 既 有 的 大 
量 基 于 TDI 标准 开发 的 TDI 传输 客户 端 驱动 组 件 需 要 一 个 过 渡 组 件 进行 适 配 , 以 兼容 
TLNPI, 因 此 TDX 便 应 运 而 生 。TDX 是 TDI 的 适 配 组 件 ,其 上 边沿 仍然 支持 TDI 接口 ,而 下 
边沿 支持 TLNPI 标准 ,完美 解决 了 TDI 向 TLNPI 转变 过 程 中 的 兼容 性 问题 。 这 再 次 证 明了 
“Any problem in computer science can be solved by a middle layer( 任何 计算 机 领域 的 问题 都 可 
以 通过 引入 一 个 中 间 层 解决 )” 这 人 句 驴 言 。 
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IRP MJ CREATE(Address) 
TDI SET EVENT HANDLER(Address,EventType,Handler) 
[RP MJ] CREATE(Connection) 


TDI ASSOCIATE ADDRESS(Connection, Address) 


TDI CONNECT(Connection) 


磊 
让 
举 
鼎 


TDI DISCONNECT(Connection) 

TDI DISASSOCTIATE(Connection, Address) 

TDIL SET_EVENT HANDLER(Address,Event Type,NYLL) 
[RP MJ CLEANUP(Address}IRP MJ CLOSE(Address) 


IRP MN] CLEANUPIConnection)}RP MJ CLOSEIConnectiony) 


17 一 39 TCP 方式 通信 时 TDI 传输 客户 端 与 TDI 传输 服务 端的 交互 (TCP 客户 端 一 侧 ) (图 片 来 自 CSDN) 


IRP MJ CREATE(Address) 
TDI SET EVENT HANDLER(Address,EventType,Handler) 
IRP MN] CREATE(Connection) 
TDI ASSOCIATE ADDRESS(Connection, Address) 
TDI EVENT CONNECTIAddress) 


TDI CONNECT(Connection) 


TDI 传输 客户 并 
TDI 传输 服务 端 


TDI EVENT DISCONNECT(Connection) 


TDI DISASSOCTIATE(Connection, Address) 


TDI SET EVENT HANDLER(Address,Event Type,NYLL) 


[RP MJ CLEANUPLAddress)IRP NM] CLOSELAddress) 


IRP NU CLEANUPIConnection)}IRP MJ CLOSEIConnection) 


17 -40 ”TCP 方式 通信 时 TDI 传输 客户 端 与 TDI 传输 服务 端的 交互 (TCP 服务 端 一 侧 ) (图 片 来 自 CSDN) 
TDX 创建 了 硅 干 个 代表 传输 协议 (四 层 协 议 ) 的 设备 对 象 ,如 图 17 -41 左 半 部 分 所 示 ， 

使 TDI 传输 客户 闹 可 以 获得 一 个 代表 某 种 协议 的 文件 对 象 , 并 且 利 用 IRP 加 协议 驱动 发 送 

I/O 请求 。 
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DRV ‘\Drmven\spldr 

DRV ‘\Driven\storflt Device Nane: Rleviee\idr Type: lprLE DEvICE TRANSPTORT 
DRY ‘Driver\swenum Driver Name: MDriver\tdr | Socurity Attributes | 
DRV \Drive\SynaMetSMI Device Object DxFFFTFh600746DC50 FsDeviee: Dpe Te 
DRV \Driven\SynTP Driver Dbject: |OxFPFFFASOOTA3DETO |Device Ba Dpe Reutine: Dx0000000000000000 


-DRY ‘\Driver\Tepip Hext Device: | orooo00ooooooo000o0 es 1 Dpe Number: bxd 
DRY \Drivertcpipreg Handle Count: D0 | 


Dx0 | Characteristicaln0 
DAY Duenud Pointar Cmt: "ee Vpb: Dx0000000000000000 Flags: x50 
SE Creation Time: Di/Ol/T0 08:00:00 References: 0 Corrent Irp: Px0000000000000000 
DEV VDevceNRevip6 Attached 0x0000000000000000 | Seetor p Dming Dev [OoxFFFFFAb00746DC50 | 
—DEY MDevice\Rawip 
一 -DEV MDevice\Udp6 DEVICE | 
| RECT_I0 
"DEY ‘Devica\Udp DRYO INITIALIZED 
DEVY \Device\Icp6 Enumer ation Information 


DEV \Device\Tcp Device Id: | 一 
“DEV ‘\Device\Tdx Tst rnc | 
DirvemNTermiin se 


Interpreted Dewvice Characterlstles: Intierpreted Dewvice Flags: 


17 一 41 TDX 创建 的 设备 对 象 
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TDX 的 映像 文件 是 tdx. sys ,其 依赖 库 如 图 17 -42 所 示 ,其 架构 如 图 17 -43 所 示 。 
A 


Module Narme Imports TimeDateSta... | ForwarderCha...l Name RVA 


szAnsi [InFunctions) Cword Cword 


ntoskrnl.exe 0001F120 0001F110 00019000 
NETIOQ.SYS O001F378 O001F104 000192358 
TOI.SYS D0001F418 O001FOFC 000192F8 
NDIS.SYS 0001F468 00000 0001F0F0 00019348 


17 -42 tdx. sys 的 依赖 库 


ald.sVsS eT 
TDI 客 成 并 


-ID 
非 TDI 
| ee tdx.sys TDI 过 滤器 2 


TDI 过 滤器 n 


1LNPI 


图 17 -43 TDX 架构 视图 


17.6 WSK 框架 


WSK( WinSock Kernel, WinSock 内 核 ) 是 为 了 使 内 核 态 驱动 程序 能 够 方便 使 用 socket 
API 而 实现 的 内 核 库 ,是 内 核 态 的 网 络 编程 接口 。WSK 的 出 现 取 代 了 传统 的 TDI, 其 具有 更 
好 的 性 能 . 易 用 性 .安全 性 和 伸缩 性 。 有 了 WSK 后 内 核 进程 可 以 不 必 再 使 用 TDI 进行 网 络 
通信 ,而 是 像 用 户 态 进程 使 用 socket API(ws2_32. dl ) 那 样 方便 地 进行 网 络 编程 了 。 

WSK 的 总 体 架 构 如 图 17 一 44 所 示 。 其 中 WSK 使 用 NMR(Network Module Resister , 网 
络 模块 注册 器 ) 堆 县 到 传输 设备 (例如 Device\TCP 等 ) 上 去 ,也 支持 从 堆 铸 中 印 载 ， 


内 核 模式 网 络 客户 应 用 程序 


LO 管理 损 


WinSock 内 核 (WSK) 


传输 器 传输 器 传输 器 


(TCP/IPvA) (TCP/TPv6) (原始 数据 ) 


17 一 44 ”WSK 架构 视图 
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WSK 被 分 为 WSK 子 系统 和 WSK 客户 端 两 个 角色 。 与 TDI 类 似 , WSK 客户 端 就 是 WSK 
服务 的 使 用 者 , 它 可 以 通过 NMR 发 布 的 注册 孙 数 同 WSK 子 系统 注册 或 注销 ,当然 也 可 以 通过 
WSK 子 系 统 ( 实 际 上 是 在 AFD 中 实现 的 ) 自身 发 布 的 注 a 
册 API ( WskRegister、WskDeregister 等 ) 注册 或 注销 ,如 ” wsk 
图 17 45 所 示 。 同 样 , WSK 子 系统 反 调 WSK 客户 端的 事 “ 提 供 者 Pt 区 
件 通 知 回调 男 数 来 通知 完成 事件 (例如 WskAcceptEvent、 
WskReceiveEvent .WskDisconnectEvent 等 ) 。 图 17 -4 WSK 的 注册 


17.7 WFP 框架 


WFP( Windows Filtering Platform, Windows 过 小 平台 ) 是 Windows Vista 及 后 续 版 本 中 新 
增 的 一 套 系 统 服 务 框架 ,用 于 网 络 数 据 包 的 过 滤 , 以 代 蔡 较 早 版 本 的 TDI 框架 、NDIS 框 染 
等 。WFP 本 二 不 实现 网 络 包 过 滤 功 能 , 它 只 是 一 套 框 染 , 详 如 防火 墙 \ 人 人 侵 检测 系统 、 网 络 流 
量 监测 系统 等 基于 网 络 包 过 滤 的 业务 系统 均 可 以 通过 WFP 框架 来 实现 。 

WFP 框架 分 为 用 户 态 过 滤 引 擎 ( UM Filtering Engine ) 和 内 核 态 过 滤 引 擎 (KM Filtering 
Engine ) 两 大 部 分 。 其 中 用 户 态 过 滤 引 擎 又 叫 作 基础 过 滤 引 擎 (Base Filtering Engine, BFE ) ， 
BFE 与 内 核 态 过 滤 引 擎 交互 ,而 第 三 方 的 应 用 又 通过 C 风格 的 API 或 RPC 接口 与 BFE 交 
互 。BFE 的 接口 封装 在 用 户 态 模块 FWPUCLNT. DLL 中 。WFP 框架 整体 架构 如 图 17 -46 所 
示 ,FWPUCLNT. DLL 的 导出 困 数 则 见 图 17 一 47。 

内 核 态 过 滤 引 擎 是 WFP 框架 的 核心 ,无 论 第 三 方 应 用 与 BFE 有 着 怎样 的 交互 ,BFE 都 
会 将 过 滤 请 求 透 传 至 内 核 态 过 滤 引 擎 中 ,真正 实施 过 滤 操 作 的 是 内 核 态 过 滤 引 擎 ,引擎 通过 
“ 热 片 ”( shim) 宁 略 监 测 协议 栈 驱 动 中 不 同 层次 的 网 络 数据 ，。 

如 图 17 -46 中 左下 方 所 示 , 在 tcpip. sys 中 一 共 插 入 了 4 块 垫 厂 ,从 上 到 下 分 别 为 数据 
流 层 垫 片 (应 用 层 的 原始 数据 包 ) 、 应 用 层 垫 片 \ 传 输 层 垫 片 和 网 络 层 垫 厂 , 一 层 比 一 层 更 接 
近 OSI 模型 的 底层 。 这 非 第 好 理解 :WFP 利用 垫 片 策略 机 制 在 协议 栈 驱 动 的 不 同 层次 中 分 
别 插入 “模子 ”, 以 过 滤 不 同 层次 的 网 络 包 。 

通过 垫 片 获取 到 网 络 包 数 据 后 ,通过 内 核 态 过 滤 引 擎 提供 的 分 类 API 将 这 些 数据 传送 
到 WFP 对 应 的 分 层 中 ,例如 ALE 分 层 ( 应 用 层 连 接管 理 ,处 理 Bind .Connect Accept Listen 
等 TCP 操作 ) ,而 这 些 分 层 又 可 以 通过 WFP 的 调 出 接口 Callout 将 这 些 数 据 导 出 到 第 三 方 系 
统 中 ,如 图 17 -48 所 示 。WFP 框架 为 每 一 分 层 都 设置 了 知 干 过 滤 挂 钩 点 ,框架 使 用 者 可 以 
对 这 些 过 滤 挂 钧 点 设置 不 同类 型 的 钧 子 函 数 以 监控 数据 流 。 例 如 在 ALE 分 层 就 针对 TCP 
客户 端 设置 了 如 下 过 滤 挂 钓 点: 

> FWPM_LAYER_ALE_BIND_REDIRECT_V4: 对 应 Windows 7 以 上 版 本 的 Bind 

操作 ， 

> FWPM_LAYER_ALE_CONNECT_REDIRECT_V4: 对 应 Windows 7 以 上 版 本 的 


le 
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Windows 老式 IPSec 
事 三 方 防火 十 防风 增 绩 略 服务 
了 (mpssyve) (policyagent) 


Ws2_32.d]l 


C 运 行 时 库 C 运 行 时 库 C 运 行 时 库 C 运 行 时 库 
API API API API 
(fwpuclnt.dll) (fwpuclnt.dll’ (fwpuclnt.dll) (fwpuclnt.dll) 


RPC 接 口 


RPC 服 务 


应 用 进程 IKE 协 议 


AuthIPix 
{Ikeext) 


RPC 运 行 时 库 
{rpertd.dll) 


基础 过 滤 引 擎 
(bfe) 


(fwpuclnt.dlly 


IKE 和 和 IPsec 层 


J 态 RPC 屋 
用 户 后 fyvd4Av6) 


用 户 模式 
内 校 模 式 


TCPNP 协 议 栈 
(tepip.sys) 


IOCTL 接 口 


数据 流 层 垫 片 流 / 数 据 报 层 


第 三 方 反 病毒 调 出 
(ITPv4yIPv6) 骨 毒 调 出 


应 用 屋 热 片 下 第 三 方 监控 油 出 
(ALE) ALE 层 

{TPw4TPwG) 网 加 和 

第 三 方 IDS 调 出 


eallout API 


(fwpkelnt.sys) 


传输 层 热 片 

[ITCP/UDP') | 第 三 方 NAT 调 出 
传输 层 

(TIPv4/TPv6) 

网 弹 屋 看 片 上 上行/ 下行 
IPv4TPv6 网 络 屋 


WEFP 内 核 客户 端 


IPsec1 周 出 


(IPvAIPvG) 
内 核 态 过 滤 引 擎 


17 一 46 ”WFP 框架 整体 架构 


Connect 操作 ， 

> FWPM_LAYER_OUTBOUND_TRANSPORT_V4:SYN 下 行 到 传输 层 : 

> FWPM LAYER_OUTBOUND _IPPACKET V4:SYN 下 行 到 网 络 层 ; 

> FFWPM LAYER_INBOUND _IPPACKET _ V4:SYN-ACK 上 行 到 网 络 层 ; 

> FWPM_LAYER_INBOUND_TRANSPORT_V4:SYN-ACK 上 行 到 传输 层 ; 

> FWPM LAYER _ALE_ FLOW_ESTABLISHED V4:SYN-ACK 到 达 ALE 分 层 , 内核 
建立 起 连接 ,同时 回复 ACK 包 给 服务 端 ; 
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Function RVA, 


(nFunctions) 
00000001 
00000002 


网 络 协议 栈 


网 络 妈 省 
(网 卡 ) 


Name Ordinal 


Name RVA 


Dword 

0002AB77 
O0002ABS87 
0002ABAd 
0002ABBB 
0002ABD3 
0002ABF1 
0002AC02 
0002AC16 
0002AC2B 


0002AC4L 


| Name 


szhAnsi 


FwpmCalloutAdd0 
FwpmCalloutCreateEnumHandleO0 
FwpmCalloutDeleteById0 
FwpmCalloutDeleteByKey0 
FwpmCalloutDestroyEnumHand,.. 
FwpmCalloutEnum0 
FwpmCalloutGetById0 
FwpmCalloutGetByKey0 
FwpmCalloutGetSecurityInfoByK,,. 


FwpmCalloutSetSecuntyInfoBykK,., 


图 17-48 ”WFP 机 制 示意 图 


> FWPM_LAYER_OUTBOUND_TRANSPORT_V4: 回 复 的 ACK 包 下 行 到 传输 层 ; 

>FWPM _ LAYER _ OUTBOUND _IPPACKET V4: 回 复 的 ACK 包 下 行 到 网 络 层 。 

图 17 -49 显示 的 是 Windows 7 系统 下 360 等 软件 利用 WFP 框架 注册 的 过 滤 挂 钧 点 。 

1 ) 内 核 态 过 滤 引 人 擎 

内 核 态 过 滤 引 擎 是 整个 WFP 框架 的 核心 ,该 引擎 也 分 成 者 干 层 ,分 别 对 应 了 网 络 协议 
栈 的 不 同 层 次 ,每 一 个 分 层 又 可 以 包含 和 厨 干 子 层 和 子 过 滤器 。 内 核 态 过 滤 引 擎 检测 网 络 数 
据 包 是 否 命中 子 过 滤 融 的 规则 ,如 果 命 中 则 会 执行 子 过 滤 希 中 指定 的 动作 (放行 还 是 拦截 ) 。 
对 于 命中 了 多 个 子 过 滤器 规则 的 情况 ,WFP 还 引入 了 过 滤 仲 裁 需 ,由 仲裁 器 计算 出 最 终 的 动 
作 来 交 给 内 核 态 过 滤 引 擎 ,内 核 态 过 滤 引 擎 再 把 结果 反馈 给 对 应 层次 的 垫 亡 。 

2) 垫 片 

热 族 的 作用 有 两 个 : 

> 截取 协议 栈 驱 动 中 各 层 的 数据 包 并 返回 给 过 滤 引 擎 ， 

> 将 过 滤 引 擎 中 对 于 网 络 数 据 包 的 处理 结果 返回 给 协议 栈 驱 动 , 使 之 进行 对 应 的 放行 / 

拦截 操作 。 


ea 


过 滤 层 
FWPM_LAYER_ALE_FLOW_ESTABLISHED_V4 
FWPM_LAYER_ALE_FLOW _ESTABLISHED_V4 
FWPM_LAYER_OUTBOUND_TRANSPORT_V4 
FWPM_LAYER_STREAM_V4 
47c9137a-7ec4-46b3b6e448e926b leda4 
FWPM_LAYER_DATAGRAM_ DATA_V4 
7021d2b3-dfa4-406e-afeb6afaf7e7efd 
FWPM_LAYER_STREAM_V4 
FWPM_LAYER_ALE_FLOW _ESTABLISHED_V4 
FWPM_LAYER_DATAGRAM_DATA_V4 


ceé63cachb7d44562-aa7da67cfcaf9a3 
FWPM LAYER_ALE_FLOW _ESTABLISHED V4 
FWPM_LAYER_ALE_FLOW_ESTABLISHED_V4 
FWPM_LAYER_ALE_FLOW_ESTABLISHED_V4 
7021d2b3-dfa4-406e-afeb6afaf7e7efd 
FWPM LAYER_ALE_ FLOW ESTABLISHED V4 


47c9137a -7ec4-46b3.b6e448e926b leda4 
FWPM_LAYER_INBOUND_TRANSPDRT_V4 
FWPM LAYER STREAM V4 
FWPM LAYER INBOUND TRANSPORT V4 
FWPM LAYER_STREAM V4 


Callout that forward AntiAttade 
360netmon 

Calout that 和 rward 350AntiHijack 
3260netmon 

Callout that forward 3650AntiHijack 
Callout that forward 350AntiHijack 
Callout that forward 350AntiHijack 


Callout that forward 350AntiHijack 
Callout that forward 380AntiHijack 
Callout that forward AntiAttadk 
360netrmon 

Callout that forward AntiAttadk 
Callout 由 at forward 350AntiHijack 
360netmon 

Callout that forward 360AntiHijack 
Callout that forward AntiAttadk 


17 -49 Windows 7 系统 下 设置 的 过 滤 挂 钧 点 示例 


热 片 相当 于 网 络 协议 栈 中 的 “ 探 针 ”, 是 WFP 框架 的 组 成 部 分 ,但 对 于 WFP 的 编程 者 来 
说 则 是 透明 的 。 
3) 调 出 接口 
调 出 接口 Callout 也 是 WFP 框架 的 组 成 部 分 ,由 夺 干 回调 也 数 构成 。 当 网 络 数 据 包 命中 
了 霖 过 滤 硕 的 规则 时 ,如 果 该 过 滤 硕 指定 了 调 出 接口 , 则 调 出 接口 中 的 回调 旺 数 就 会 被 调 
用 。 调 出 接口 包含 三 个 回调 困 数 . notifyFn classifyFn 和 flowDeleteFn 。 
> classifyFn: 若 过 滤 紫 关联 了 调 出 接口 , 当 规 则 命中 时 ,内 核 态 过 滤 引 擎 会 回调 该 函数 ， 
WFP 框架 的 使 用 者 可 以 信用 该 限 数 进一步 处 理 网 络 数据 包 的 信息 恩 ( 例 如 执行 深度 包 
检测 ,修改 包头 地 址 ,做 NAT 等 ) ,也 可 以 设置 对 数据 包 的 放行 /拦截 操作 。 
> notifyFn: 当 过 波 融 被 添加 到 内 核 态 过 滤 引 擎 或 从 中 移 除 时 ,WFP 框 染 调用 该 过 滤 帮 
对 应 的 调 出 接口 的 notifyFn 函数 ,以 便 通 知 WFP 框 杂 的 使 用 者 过 滤 硕 的 变化 情况 。 
> flowDeleteFn: 当 一 个 网 络 数据 流 将 要 被 终止 时 , WFP 框架 调用 flowDeleteFn 函数 来 
清理 上 下 文 。 
4) 过 小 从 
过 小 天 存在 于 内 核 态 过 滤 引 警 的 各 个 分 层 中 。WFP 框架 内 置 了 一 部 分 过 滤 希 供 第 三 方 
模块 使 用 ,同时 开发 者 也 可 以 添加 目 己 的 过 滤 硕 。 过 滤 带 是 规则 与 动作 的 组 合 ,满足 了 规则 
就 要 执行 相应 的 动作 。 在 一 个 分 层 中 可 以 存在 多 个 过 小 右 , 每 个 过 滤 右 被 赋 子 不 同 的 权重 。 
过 滤 帮 也 可 以 关联 调 出 接口 , 当 规 则 被 命中 时 , 调 出 接口 对 应 的 回调 也 数 被 调用 ,可 以 在 回 
调 困 数 内 对 网 络 数 据 包 做 进一步 的 处 理 。 
最 后 介绍 一 下 WFP 框 淋 的 工作 流程 ,如 下 所 示 : 
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(1) 一 个 网 络 包 进入 到 协议 栈 驱 动 中 (tepip. sys) 。 

(2) 协议 栈 驱 动 找到 一 个 垫 厂 ,这 是 由 硅 干 个 分 层 注册 的 垫 片 。 

(3) 该 热 片 调用 该 特定 分 层 注 册 的 Classfication( 分 类 ) API 进行 分 类 处 理 。 

(4) 在 分 类 处 理 期 间 , 过 滤 熏 开始 工作 ,进行 条 件 匹 配 ,如 采 条 件 匹 配 , 则 调用 对 应 的 调 
mE classifyFn 。 

(5) 垫 厂 执行 最 终 的 过 滤 决 定 ( 放行 还 是 拦截 ) 。 

对 比 Linux 平台 固有 的 Netfilter 框架 ,Netfilter 框架 只 能 工作 在 网 络 层 ,过滤 拦截 的 都 是 
IP 包 ;而 WFP 框架 可 以 工作 在 应 用 层 .传输 层 网 络 层 甚至 链 路 层 ( Windows 8. 1 之 后 的 版 
本 ) ,可 以 说 是 全 栈 方式 的 检测 与 拦截 ,功能 比 Netfilter 框架 更 为 强大 。 


17.8 WinPcap 框架 


WinPcap 框架 是 Windows 平台 访问 数据 链 路 层 的 开源 库 , 其 特点 是 可 以 红 开 Windows 
日 囊 的 协议 栈 驱 动 程序 而 进行 网 络 数 据 包 的 捕获 /发 送 , 因 此 该 框架 常用 于 网 络 数 据 包 监听 
和 和 劳 路 化 截取 。 我 们 日 彰 使 用 的 Wireshark 抓 包 软 件 就 是 基于 WinPceap 框架 实现 的 。 
这 里 要 注意 ,WinPceap 是 通过 劳 路 技术 实现 监听 和 和 鹤 取 的 ,因此 不 会 改变 既 有 数据 包 的 
内 容 ,更 不 会 阻塞 既 有 数据 包 的 传递 , 它 只 是 将 接收 或 发 送 的 网 络 数据 包 做 一 份 捞 贝 供 目 己 
分 析 使 用 ,因此 也 可 能 会 对 系统 的 网 络 IO 性 能 造成 一 定 的 影响 。 
WinPcap 框架 具有 以 下 功能 : 
> 捕获 原始 数据 包 , 无 论 它 是 发 往 某 人 台 机 如 的 ,还 是 在 
其 他 设备 ( 共 盏 妹 介 ) 上 进行 交换 的 。 
> 在 网 络 数据 包 到 达 某 应 用 进程 之 前 ,根据 用 户 指 是 
的 规则 过 小 数据 包 。 
> 支持 以 可 编程 的 方式 将 原始 数据 包 通过 网 络 发 送 本 
> 文 持 以 可 编程 的 方式 收集 并 统计 网 络 流量 信息 。 
WinPcap 框架 由 以 下 组 件 构成 ,三 者 的 层次 关系 如 图 
17 一 50 所 示 。 
> NPF( Netgroup Packet Filter, 网 络 组 包 过 滤器 ) 驱 


z pa 网 络 
功能 。 图 17 -S0 WinPcap 框架 的 组 成 


> packet. dl : 这 是 个 用 户 态 文 撑 库 , 提供 了 用 户 态 
API, 用 于 下 接 访问 NPF 驱动 ,并 四 wpcap. dl 提供 功能 文 持 。packet. dl 的 导出 限 数 
如 图 17 一 51 所 示 。 
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Ordinal Function RVA, Name Ordinal | Name RVA 


(nFunctions) Dword szAnsi 
00026470 PacketGethNetIinfeEx 
00026483 PacketGetNetType 


00026494 PacketGetReadEvent 


000264A7 PacketGetStats 
000264B6 PacketGetStatsEx 
000264C7 PacketGetVersion 
000264D8 PacketInitPacket 
000264E9 PacketlsDumpEnded 
000264FB PacketIsLoopbackAdapter 
| 00026513 PacketlsMonitorModeSupported 
00026530 PacketOpenAdapter 


17 -S1 packet. dll 的 导出 函数 
> wpcap. dll: 这 也 是 个 用 户 态 文 撑 库 ,为 上 层 应 用 提供 了 最 上 层 的 API 支持 ,其 功能 更 
强大 。wpcap. dl 的 导出 图 数 如 图 17 一 52 所 示 。 
WinPcap 框架 整体 架构 如 图 17 -353 所 示 。 


Function RVA Name Ordinal | Name RVA Name 

N/A 0005FEF8 | 00060290 000603A5 

(nFunctions) Dword Word | szAnsi 

00000059 00019740 pcap_sendqueue transmit 
00019780 pcap_set_buffer_size 
000197C0 ] pcap_set_datalink 
00019930 pcap_set immediate_ mode 
00019970 5 pcap_set_promisc 
00013360 pcap_set_rfmon 
000199F0 pcap_set snaplen 


沪 十 六 进 制 编辑 , 
,Identifier 00019A30 | peap_set timeout 


00019A70 pcap_set tstamp_precision 


00019B00 pcap_set tstamp type 


WinPcap 框架 中 的 NPF 驱动 通过 向 NDIS 框架 注册 绑 定 了 所 有 的 网 卡 。 注 册 成 功 后 ， 
NPF 的 地 位 就 与 TCP《 了 协议 栈 驱 动 的 地 位 一 样 了 ,任何 一 个 网 卡 接收 到 网 络 效 据 包 后 都 可 
以 回 协 议 驱 动 和 NPF 驱动 回调 ,NPF 就 是 这 样 借助 NDIS 框架 和 和 劳 路 机 制 实现 了 网 络 包 的 
捕获 ,如 图 17 一 54 所 示 。 
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调用 WinPcap 调用 WinPcap LT rh 


1. 对 NPF 的 


Statistical 
engline 


17 一 533 ”WinPcap 框架 整体 架构 


用 户 态 
内 核 太 
数据 包 网 络 


图 17 -5$4 网 络 协议 栈 旁 路 机 制 


本 章 小 结 


本 章 介 绍 了 Windows 系统 中 的 网 络 协议 栈 的 各 个 驱动 和 框架 。 其 中 比较 关键 的 是 
NDIS ,这 是 一 个 串联 NDIS 小 端口 驱动 和 协议 驱动 的 接口 框架 ,但 不 应 该 把 这 个 框架 看 作 扁 
平 的 一 层 , 因 为 NDIS 不 仅 对 接 了 网 卡 驱 动 和 协议 驱动 ,也 为 整个 网 络 协议 栈 提 供 了 支撑 
接口 。 
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TDIATDX 则 作为 用 户 态 支撑 库 与 辅助 功能 驱动 的 接口 ,是 socket 机 制 的 分 水 岭 。TDI 
之 上 就 是 我 们 熟知 的 socket 库 , 之 下 则 实现 了 socket 机 制 比较 底层 的 逻辑 。 
在 此 基础 之 上 ,还 介绍 了 NDIS 小 端口 驱动 .协议 驱动 辅助 功能 驱动 等 ,这 些 驱动 模块 
基本 上 与 OSI 模型 相对 应 。 
除了 基础 网 络 协议 栈 ,Windows 中 还 包括 了 一 些 辅助 框架 ,例如 WSK 框架 、WFP 框架 、 
WinPcap 框架 等 ,这 些 也 都 是 比较 常见 和 和 党 用 的 网 络 驱 动 框架 。 
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文件 系统 是 操作 系统 用 于 管理 存储 介质 上 文件 和 目录 的 方法 集 和 数据 结构 集 , 为 
Windows API 提供 了 基于 目录 机 制 .对 象 机 制 的 文件 管理 方法 ,这 些 方法 不 需要 直面 刻板 星 
涩 的 磁盘 系统 和 二 进 制 数据 。 无论 是 Windows 还 是 Linux ,都 具有 相应 的 文件 系统 。 

本 章 我 们 将 按照 图 18 -1 所 示 的 提纲 介绍 Windows 文件 系统 。 
预备 知识 : 存储 介质 、 磁 盘 、 磁 盘 相 
EBR 等 ) 、 分 区 方式 等 

| 卷 管理 驱动 栈 的 构成 -” 肋 天 页 上 的 柄 记 
_ 丰 生动 的 研 含 “| 文件 系统 驱动 的 成 | 


生 的 数据 结构 ( MBR、DBR、 


| 卷 设备 对 象 才 是 文件 系统 与 之 交互 的 对 象 
se ee 
人 着 设备 对 象 与 控制 类 设备 对 象 之 间 的 关系 “| _ 控 制 类 设备 对 象 只 承担 了 很 少 的 工作 


VPB、FCB、CCB、FILE_ OBJECT 等 数据 结构 


| | 文件 的 读 取 
| ReFS : 特点 
文件 系统 识别 器 


W 杠 架 | | 文件 系统 过 小 驱动 
| 文件 系统 过 滤 框 架 FltMgr 一 一 一 一 一 一 
Rd 


图 18-1 本 章 提 纲 


在 介绍 Windows 文件 系统 之 前 ,我 们 先 来 看 看 磁盘 的 相关 知识 。 
物理 磁盘 : 便 盘 或 其 他 种 类 的 磁盘 实体 。 
逻辑 磁盘 :所 谓 逻 辑 磁 盘 , 就 是 我 们 平时 所 说 的 D 盘 丰 盘 等 ,这 是 将 磁盘 扩展 分 区 再 次 
分 区 后 形成 的 逻辑 区 域 ,逻辑 磁盘 也 称 为 “文件 卷 ”。 
磁盘 分 区 ;物理 磁盘 分 区 有 三 种 类 型 , 即 主 磁盘 分 区 .扩展 磁盘 分 区 .逻辑 分 区 ,其 中 逻 
辑 分 区 是 在 扩展 分 区 中 划分 的 。 
> 主 磁盘 分 区 : 即 磁 盘 的 启动 分 区 ,也 是 磁盘 的 第 一 个 分 区 。 计 算 机 中 的 主 磁盘 分 区 至 
少 有 1 个 ,最 多 有 4 个 ,这 类 分 区 用 于 安 讼 操作 系统 且 是 不 能 二 次 分 区 的 。 主 磁盘 分 
区 是 直接 从 物理 磁盘 上 划分 的 。 
> 扩展 磁盘 分 区 :扩展 分 区 不 能 直接 使 用 ,必须 进行 二 次 划分 逻辑 分 区 才 可 以 使 用 。 计 
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算 机 中 的 扩展 分 区 最 多 有 1 个 ,也 可 以 设 有 ,但 主 分 区 加 扩展 分 区 的 总 数 不 能 超过 


汪汪 
> 逻辑 分 区 :是 在 扩展 磁盘 分 区 中 划分 出 来 的 分 区 ,可 以 有 乔 干 个 ,逻辑 分 区 也 称 为 " 逻 
辑 卷 ” 。 


无 论 怎样 ,我 们 在 给 新 磁盘 建立 分 区 时 都 要 亲 循 以 下 顺序 ;建立 主人 磁盘 分 区 一 建立 扩展 
磁盘 分 区 一 建立 逻辑 分 区 一 激活 主 磁 盘 分 区 一 格式 化 所 有 分 区 。 

对 于 磁盘 来 说 ,整个 磁盘 是 由 大 干 分 区 构成 的 ,每 个 分 区 由 硅 干 磁道 构成 ,而 每 个 磁道 
又 是 由 许多 扇 区 组 成 ,每 个 扇 区 的 大 小 是 $12 B ,如 图 18 -2 中 左边 所 示 。 


18 -2 物理 系统 中 的 物理 磁盘 和 FAT 文件 系统 中 的 逻辑 磁盘 的 构成 


而 从 文件 系统 的 角度 来 看 ,在 Windows 系统 中 逻辑 磁盘 (这 个 逻辑 磁盘 可 以 代表 一 个 物 
理 磁 盘 , 也 可 以 代表 物理 磁盘 的 一 个 分 区 ) 是 承载 文件 卷 ( 逻 辑 卷 ) 的 载体 ,逻辑 卷 又 可 以 分 
成 若干 个 条 ,每 个 簇 是 由 铬 干 户 区 组 成 的 ,如 图 18 一 2 中 右边 所 示 。 在 32 位 系统 中 , 扇 区 的 
大 小 是 512B, 悄 区 是 文件 系统 访问 磁盘 的 最 小 单位 ，。 

磁 盘 按照 接口 类 型 一 般 可 分 为 IDE 硬盘 SATA 便 盘 、SCSI 人 硬盘 和 SAS 便 盘 。IDE 便 盘 
的 价格 低 , 性 能 好 ,应 用 非常 广泛 ,不 过 当前 SATA 硬盘 已 经 逐渐 取代 了 IDE 硬盘 成 为 PC 的 
主流 硬盘 。SCSI 硬盘 则 由 于 更 好 的 性 能 普遍 应 用 于 服务 器 系统 中 。SAS 是 串 行 连接 SCSL， 
是 新 一 代 的 SCSI 技术 ,具有 更 高 的 传输 速度 ,因而 SAS 硬盘 比 SCSI 硬盘 的 速度 更 快 。 

MBR( Main Boot Record ) : 主 引 导 记 录 , 占 446 字 节 ,是 计算 机 局 动 后 从 可 启动 介质 上 
首先 载 入 内 存 并 且 执 行 的 代码 ,通常 用 来 解释 磁盘 分 区 结构 。 

DBR( DOS Boot Record) :DOS 引导 记录 ,是 由 硬盘 的 MBR 装载 的 程序 段 ,通常 用 来 解 
释文 件 系统 ,存放 于 人 刹 盘 分 区 后 每 个 分 区 的 第 一 个 悄 区 。DBR 载 人 内 存 后 ,随即 开始 执行 该 
引导 程序 段 ,其 主要 功能 是 完成 操作 系统 的 自 举 并 将 控制 权 交 给 操作 系统 。 硬 盘 的 每 个 分 
区 都 有 3 引导 局 区 ,但 只 有 被 设置 为 活动 分 区 的 才 会 被 DBR 载 人 内 存 运 行 。 

EBR( Extended Boot Record ) :扩展 引导 记录 ,类 似 于 MBR。 因 为 MBR 的 4 条 分 区 信 
息 的 限制 ,可 以 使 用 EBR 方便 扩展 分 区 数量 。EBR 的 结构 与 MBR 类 似 , 但 是 没有 引导 程序 
和 磁盘 签名 ,仅仅 保留 了 分 区 表 和 结束 标志 。 

我 们 以 4 个 分 区 的 硬盘 为 例 ,按照 在 磁盘 中 位 置 由 低 到 高 的 顺序 依次 为 : 主 引 导 导 区 一 
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i 


区 上 分 区 表 顶 3 
个， 记 :者 : 分 区 表 项 4 
辑 ij 局， 结束 有 效 标志 . 
时 
| 
| 


各 | 公分 区 表 需 3 


1 记 1 表 ， 分 区 表 项 4 


| 
1 动 | 
i 扩展 | | 
) EE 3 如 一 | ji 下 盐 ) 
, Dxo5AA : | 


引导 几 区 1 扩 店 分 区 表 项 ] 


Ei 


扩展 分 区 表 
引导 出 区 


| 球 业 
pe 


| 孙 1 _ 结 束 有 效 标志 
' 引导 扇 区 


旨 他 网 寻 荫 个 


际 出 


18 -3 MBR 结构 下 硬盘 与 其 扩展 分 区 的 结构 ( 图片 来 自 CSDN ) 


主 引 导 扇 区 : 共 占 用 512 B 的 空间 (正好 一 个 悄 区 ) ,如 图 18 -3 的 左 半 部 分 示 ,包括 : 
> 主 引导 记录 (446 B) 。 
> 人 硬盘 分 区 表 (Disk Partition Table,DPT) ,包含 了 4 个 分 区 表 项 , 共 占 用 64 B 的 空间 
(16 B x4)。 其 中 4 个 硬盘 分 区 表 项 分 别 指 癌 了 主 引 导 记 录 之 后 的 基本 分 区 1 ~3 的 
引导 刷 区 和 扩展 分 区 的 第 一 个 扩展 分 区 表 。DPT 只 有 64 B, 也 就 是 说 最 多 只 能 描述 
4 个 分 区 。 这 也 是 主 分 区 和 扩展 分 区 不 能 超过 4 个 的 原因 。 
> 分 区 有 效 标志 0x55AA(2 B) 。 
基本 分 区 :每 个 基本 分 区 都 包含 了 引导 书 区 和 存储 的 数据 两 部 分 内 容 。 
扩展 分 区 :可 以 分 为 多 个 逻辑 驱动 器 (例如 DD 盘 、 丰 盘 等 ) ,如 图 18 -4 所 示 , 其 中 的 每 个 
逻辑 驱动 器 都 有 一 个 类 似 于 MBR 的 扩展 引导 记录 (EBR) ,EBR 包括 一 个 扩展 分 区 表 和 该 月 
区 的 结束 标志 (0x55AA ) ,当然 如 果 磁 盘 上 没有 扩展 分 区 也 就 不 会 有 EBR 和 逻辑 驱动 硕 。 
第 一 个 逻辑 驱动 需 的 扩展 分 区 表 中 的 分 区 表 项 1 指向 它 目 和 吴 的 引导 忆 区 。 分 区 表 项 2 指 癌 
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下 一 个 逻辑 驱动 硕 的 EBR ,如 采 不 存在 下 一 个 的 逻辑 驱动 大 ,分 区 表 项 2 就 不 会 使 用 有 旦 被 赋 
值 为 0。 扩 展 分 区 表 的 分 区 表 项 3 和 分 区 表 项 4 都 没有 意义 ,不 会 被 使 用 。 

除了 扩展 分 区 上 最 后 一 个 迎 辑 驱动 硕 外 ,扩展 分 区 表 的 格式 在 每 个 逻辑 驱动 硕 中 都 是 
重复 的 :分 区 表 项 1 标识 了 逻辑 驱动 大 本 身 的 引导 忆 区 ,分 区 表 项 2 标识 了 下 一 个 逻辑 驱动 
做 的 EBR。 最 后 一 个 逻辑 驱动 硕 的 扩展 分 区 表 只 会 列 出 它 本 身 的 分 区 项 。 


Ea 磁盘 0 | | | 


基本 (OC) (D3 | 加 (F) 
238.47 GB 80.00 GB NTFS 和 40.00 GB NTFS 50.00 GB NTFS 68.47 GB NTFS 
联机 状态 良好 (系统 , 启动 , | 状态 良好 ( 逻 加 缀 对 | | 状态 良好 ( 尿 辑 蚁 动 i | | 状态 良好 (逻辑 蝶 动 i 


图 未 分 配 图 主 分 区 图 扩展 分 区 | 可 用 空间 图 运 辑 驱动 器 
18 -4 主 分 区 与 扩展 分 区 
在 Windows 体系 下 磁盘 分 区 有 以 下 两 种 方式 : 
> MBR 方式 :MBR 仅 为 分 区 表 保 留 了 64 B 的 存储 空间 ,因此 最 多 分 为 4 个 分 区 。 
> GPT 方式 :GPT 磁盘 分 区 结构 解决 了 MBR 只 能 分 4 个 主 分 区 的 缺点 ,分 区 数理 论 上 
是 没有 限制 的 。 
GPT( GUID Partition Table) :全 局 唯一 标识 磁盘 分 区 表 , 其 数据 结构 如 图 18 -5 所 示 : 


GPT 头 备份 
分 区 表 备 份 


GPT 头 
保护 MBR 


图 18 一 5 ” GPT 的 结构 


> 保护 MBR :位 于 GPT 磁盘 的 第 一 个 悄 区 ,也 就 是 0 号 朵 区 ,由 磁盘 签名 .MBR 磁盘 分 
区 表 和 结束 标志 组 成 ,没有 3 引导 代码 ,而 且 分 区 表 内 只 有 一 个 分 区 表 项 ,GPT 根本 不 
用 这 个 表 项 , 它 只 是 用 来 让 系统 认为 这 个 磁盘 是 合法 的 。 

> CPT 头 : 位 于 GPT 人 磁盘 的 第 二 个 悄 区 ,也 就 是 1 号 悄 区 ,该 而 区 是 在 创建 CPT 磁盘 时 
生成 的 ,其 作用 是 定义 分 区 表 的 位 置 和 大 小 。GPT 头 还 包含 了 头 和 分 区 表 的 校 验 和 ， 
这 样 就 可 以 及 时 发 现 错误 。 

> 分 区 表 : 位 于 GPT 磁盘 的 2 ~33 号 肩 区 ,一 共 占 用 32 个 扇 区 ,能 够 容纳 128 个 分 区 表 
项 。 每 个 分 区 表 项 的 大 小 为 128 B。 由 于 每 个 分 区 表 项 用 于 管理 一 个 分 区 ,因此 允许 
GPT 磁盘 创建 128 个 分 区 ,每 个 分 区 表 项 中 记录 看 分 区 的 起 始 地 址 结束 地 址 分 区 
类 型 的 GUID .分 区 名 称 、 分 区 属性 和 分 区 GUID。 

> 分 区 区 域 :CPT 分 区 区 域 就 是 用 户 使 用 的 分 区 ,也 是 用 户 进 行 数 据 存储 的 区 域 。 分 区 
区 域 的 起 始 地 址 和 绪 束 地 址 由 分 区 表 定 义 。 
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> GPT 头 备 份 :GPT 头 有 一 个 备份 , 放 在 GPT 磁盘 的 最 后 一 个 而 区 ,但 这 个 GPT 头 备 份 
并 非 完 全 备份 GPT 头 , 某 些 参 数 会 有 不 同 ,复制 的 时 候 会 根据 实际 情况 修正 。 
> 分 区 表 备 份 :分 区 区 域 结束 后 就 是 分 区 表 备 份 ,其 地 址 在 GPT 头 备份 硼 区 中 有 摘 述 。 
分 区 表 备 份 是 对 分 区 表 的 32 个 请 区 的 完整 备份 。 如 果 分 区 表 被 破坏 ,系统 会 月 动 读 
取 分 区 表 备 份 , 以 保证 正常 识别 分 区 。 
可 以 看 出 ,GPT 分 区 结构 相对 于 MBR 要 简单 许多 ,并 且 分 区 表 以 及 GPT 头 和 都 有 容 灾 
备份 。 


18.1 Windows 存储 驱动 栈 


磁盘 的 最 小 单位 是 刷 区 ,在 X86 的 32 位 系统 下 ,一 个 悄 区 的 大 小 是 512 B。 一 个 磁盘 往 
往 被 分 割 成 厂 十 分 区 ,每 个 分 区 包含 了 连续 的 多 个 司 区 。 但 磁盘 一 般 是 以 “ 卷 ” 为 单位 来 管 
理 的 , 卷 分 为 两 种 :简单 卷 和 多 分 区 卷 。 人 简单 卷 对 应 一 个 独立 的 分 区 ;多 分 区 卷 管理 多 个 分 
区 ,构成 该 卷 的 多 个 分 区 可 以 是 同一 磁盘 中 不 连续 的 分 区 ,甚至 是 不 同 磁 盘 的 不 同 分 区 。 其 
实 可 以 把 卷 看 作 户 区 的 逻辑 集合 ,这 些 肩 区 可 以 位 于 一 个 磁盘 或 者 多 个 磁盘 。 但 是 从 文件 
系统 这 个 层面 看 过 去 只 能 看 到 卷 , 却 无 法 识别 卷 内 的 局 区 分 布 于 哪些 磁盘 ,这 也 是 卷 作 为 文 
件 系 统 瓜 层 结 构 对 于 磁盘 大 区 的 逻辑 抽象 。 
图 18 -6 是 Windows 存储 驱动 体系 的 框架 。 可 以 看 出 ,整个 存储 驱动 体系 分 为 三 层 , 日 
下 而 上 分 别 是 磁盘 管理 驱动 栈 , 卷 管理 驱动 栈 、 文 件 系 统 \ 驱 动 栈 。 之 所 以 叫 " 驱动 栈 " 是 因 
为 每 层 都 是 由 多 个 驱动 程序 堆叠 而 成 。 同 时 ,驱动 栈 也 是 设备 栈 ,驱动 会 生成 对 应 的 设备 对 
象 并 堆 琶 起 来 ,这 与 一 般 的 驱动 设备 堆 琶 是 一 样 的 。 文 件 系统 不 直接 跟 磁 盘 体系 打交道 ,而 
是 要 通过 卷 的 中 转 ,其 中 磁盘 管理 驱动 栈 和 卷 管理 驱动 栈 是 在 IO 系统 初 娘 化 的 时 候 就 构 
建 好 了 的 。 
1) 磁盘 管理 张 动 栈 
> atapi. sys 是 磁盘 管理 驱动 栈 中 的 IDE 总 线 驱 动 模块 ,人 负责 通知 PNP 管理 入 有 新 的 
IDE 磁盘 挂 入 / 缀 载 。 当 然 不 只 是 磁盘 ,所 有 IDE 接口 的 设备 都 是 由 atapi. sys 枚 举 
的 。 如 果 是 SCSI 磁盘 ,这 个 位 置 会 由 scsiport. sys 代 符 。 
人 acpl. sys 是 总 线 过 小 型 驱动 模块 ,其 过 小 设备 对 象 由 atapl. SYS 指示 创建 。 
> disk. sys 是 磁盘 类 驱动 模块 ,所 谓 类 驱动 是 相对 于 小 闪 口 驱动 而 言 的 ,类 驱动 将 磁盘 
的 共性 功能 抽象 出 来 作为 通用 模块 ,而 将 依赖 于 具体 磁盘 型 号 的 个 性 功能 下 沉 成 为 
小 端口 驱动 。disk. sys 是 磁盘 的 共性 功能 驱动 ,负责 磁盘 通用 功能 的 逻辑 实现 。 
> partmgr. sys 是 磁盘 栈 的 分 区 管理 模块 ,用 于 通知 PNP 管理 器 当前 磁盘 上 有 哪些 分 区 ， 
这 样 卷 管理 驱动 程序 就 可 以 知道 要 创建 或 删除 哪些 分 区 。 
> ftdisk. sys 是 卷 管理 驱动 程序 ,也 是 卷 管理 驱动 栈 中 的 总 线 驱 动 模块 ,负责 通知 PNP 
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IO 请 求 用 户 模式 
系统 服务 内 核 模式 
文件 系统 过 滤器 管理 器 | ; ftMgrsys 
文件 系统 驱动 栈 
文件 系统 驱动 程序 | ntfs.sys 
卷 影像 拷贝 驱动 程序 “| : volsnap.sys 
卷 管理 驱动 栈 
卷 管理 驱动 程序 ftdisk.sys 
| 分 区 管理 驱动 程序 ,Partmgr.sys 
! 磁盘 类 驱动 程序 ,disk.sys 
’ : 磁盘 管理 驱动 栈 
| 总 线 过 滤 驱 动 程序 acpi.sys 
| 磁盘 总 线 驱动 程序 atapi.sys 


图 18-6 Windows 7 之 前 的 存储 驱动 体系 框架 


管理 硕 有 哪些 卷 。 当 磁盘 分 区 发 生变 化 时 ,partmgr. sys 指示 卷 管理 驱动 创建 对 应 的 
卷 设 备 对 象 ,在 Windows 7 及 以 上 的 版 本 中 这 个 位 置 由 volmgr. sys 代 稚 。 

> volsnap. sys 是 卷 影 像 捞 贝 驱动 程序 ,也 是 卷 管理 驱动 栈 中 的 功能 驱动 模块 ,提供 了 卷 
的 附加 功能 。 

3) 文件 系统 驱动 栈 

> ntfs. sys 是 文件 系统 驱动 栈 中 具体 文件 系统 的 实现 ,除了 NTFS 文件 系统 ,这 个 位 置 也 
可 以 是 代表 FAT 文件 系统 的 fastfat. SVS 。 

> fltMgr. sys 是 文件 系统 过 滤 管 理 右 ,是 整个 文件 系统 驱动 栈 乃 至 存储 驱动 栈 最 顶层 的 

模块 。 它 提供 了 一 个 管理 框架 ,以 方便 开发 人 员 编 写 文 件 系 统 过 滤 驱 动 。 

从 图 18 一 7 可 以 看 出 ,Windows 7 下 卷 管理 驱动 栈 中 的 总 线 驱 动 模块 会 生成 一 个 物理 设备 
对 象 ,这 是 卷 管理 带 上 的 总 线 设 备 。 在 此 之 上 还 生成 了 个 功能 设备 对 象 , 即 VolMgrControl ,这 
是 总 线 设 备 上 的 功能 设备 对 象 。 在 这 个 管理 硕 功 能 设备 对 象 之 上 volmgr. sys 又 生成 了 4 个 
卷 设备 对 和 象 (系统 中 有 4 个 分 区 ), 即 HarddiskVolumel HarddiskVolume2 HarddiskVolume3 、 
HarddiskVolume4 , 且 是 物理 设备 对 象 ,代表 了 4 个 分 区 ,都 是 由 卷 管 理 央 生成 的 ,在 这 4 个 分 
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区 设备 对 象 之 上 才 是 卷 的 功能 设备 对 和 象 以 及 更 上 层 的 提供 了 卷 附 加 功能 的 设备 对 和 银 。 


日 - -PDO eo pelted [STORAGE\Volume] 
日- FD0O Attached: (unnamed) - \Driven\fvevol 
-FDO Attached: (unnamed) - \Driver\Wwolsnap 
日 - ES File System: (unnamed) - \FileSystem\Ntfs 
“FDO Attached: (unnamed) - \FileSystem\FltMg 
MED \Device\HarddiskVolumel 
日 --PDO ‘\Device\HarddiskVolume2 - [STORAGE\Volume] 
日 -~ FDO Attached: (unnamed) - \Driver\fvevol 
-FDO Attached: (unnamed) - \Driver\wolsnap 
日- [9 File System: (unnamed) - \FileSystem\Ntfs 
-FDO Attached: (unnamed) - \FileSystem\FltMg 
MED \Device\HarddiskVolume2 
日 -…PDO ‘\Device\HarddiskVolume3 - [STORAGE\Volume] 
EH- TDO Attached' (unnamed) - \Driverfvevol| 
-FDO Attached: (unnamed) - \Driver\volsnap 
日 -- ES File System: (unnamed) - \FileSystem\Ntfs 
“FDO Attached: (unnamed) - \FileSystem\FltMg 
MED \Device\HarddiskVolume3 
日 -PDO \Device\HarddiskVolume4 - [STORAGE\Volume] 
日- TD0 Attached: (unnamed) - \Drivemfvevol| 
-FDO Attached: (unnamed) - \Drverwolsnap 
日- ES File System: (unnamed) - \FileSystem\Ntfs 
-FDO Attached: (unnamed) - \FileSystem\FltMar 
MED \Device\HarddiskVolumed4 


18 一 7 Windows 7 系统 下 卷 以 上 存储 驱动 栈 的 框架 

在 卷 管 理 驱动 栈 之 上 是 文件 系统 驱动 栈 。 作 为 中 间 层 的 卷 不 但 与 下 层 的 磁盘 驱动 发 生 
关联 ,也 要 与 上 层 的 文件 系统 产生 联系 ,这 个 过 程 叫 作 “ 卷 识别 ”。 没 有 文件 系统 的 参与 就 不 
可 能 按 目 录 访 问 磁盘 上 的 文件 。 

但 是 卷 识 别 的 过 程 并 不 是 发 生 在 IO 系统 初始 化 的 时 候 , 而 是 发 生 在 上 层 进 程 第 一 次 
访问 茶 个 卷 上 的 目录 或 文件 的 时 候 : 当 WO 管理 带 或 对 象 管 理 帮 解析 到 卷 路 径 名 的 时 候 , 就 
会 调用 IopCheckVpbMounted 进而 调用 IopMountVolume 方法 进行 卷 识别 。 

IopMountVolume 首先 选择 全 局 文件 系统 列表 (文件 系统 安 交 的 时 候 会 注册 到 全 局 列表 
中 ) ,并 对 列表 中 的 每 个 文件 系统 下 发 主 功能 码 为 IRP_MJ_FILE_SYSTEM_CONTROL . 副 功 
能 码 为 IRP_MN_MOUNT_VOLUME 的 IRP, 这 个 IRP 代表 了 挂 载 请 求 , 挂 载 是 由 文件 系统 中 

的 功能 尔 数 来 定义 和 实现 的 。 如 果 该 IRP 返回 成 功 , 则 证 明 该 卷 和 文件 系统 可 以 挂 载 并 且 
挂 载 成 功 ,继而 完善 文件 卷 参 效 块 (VPB ) 等 数据 结构 ;否则 ,尝试 列表 中 的 下 一 个 文件 系统 。 
可 以 看 出 , 卷 识别 是 个 文件 系统 枚 举 的 过 程 。 

VPB( Volume Parameter Block ) 是 文件 系统 中 的 重要 数据 结构 ,其 内 容 是 由 LO 管理 需 
定义 的 ,其 任务 是 绑 定 卷 设备 / 块 设备 (如 人 磁盘 分 区 或 虚拟 磁盘 ) 和 此 卷 设备 对 应 的 文件 系统 
(如 FastFat、NTFS) ,可 以 看 作 块 设备 和 文件 系统 的 连接 硕 。 卷 设备 是 无 法 被 IO 省 理 各 和 耳 
接 旋 与 的 ,虽然 卷 的 谈 写 单位 是 导 区 ,但 如 条 通过 出 区 来 访问 文件 是 极为 不 方便 的 ,更 无 法 
使 用 文件 目录 ,因此 位 于 卷 上 面 的 文件 系统 才 是 我 们 创建 目录 ,根据 目录 访问 文件 .管理 文 


326 


XY 第 18 章 Windows 文件 系统 


件 的 媒介 。VPB 就 是 这 二 者 之 间 的 纽 市 ,其 数据 结构 如 下 所 示 : 


typedef struct VPB 
{ 


CSHORT Type; // IO TYPE VPB 
CSHORT Size; /A/VPB 结构 的 大 小 
USHORT Flags; ”// 标 志 位 ,含义 如 下 : 
//VPB_MOUNTED :此 卷 已 被 文件 系统 识别 并 已 挂 载 
/ /VPB_LOCKED :此 卷 已 被 文件 系统 锁定 
//VPB PERSISTENT :将 VEB 一 直 保 留 在 内 存 中 (不 释放 ) 
/ /VPB_REMOVE_PENDING :此 存储 设备 即将 被 卸载 /删除 
//VPB_RAW_MOUNT :指定 此 卷 仅 由 系统 RAW 文件 系统 接管 
USHORT VolumeLabelLength;  ”// 卷 标 长 度 
struct DEVICE OBJECT * DeviceObject; // 指 向 文件 系统 驱动 生成 的 设备 对 象 ,是 在 安装 文件 卷 的 过 
// 程 中 完成 指向 的 
struct _ DEVICE OBJECT * RealDevice; / /指向 块 设 备 (如 磁盘 等 ) 驱动 的 设备 对 象 
ULONG SerialNumber; // 卷 序列 号 
ULONG ReferenceCount ; /AVPB 的 引用 计数 ,用 以 控制 VPB 的 生命 周期 
WCHAR VolumeLabel[ MAXIMUM VOLUME LABEL LENGTH / sizeof (WCHAR) ] ; 
// 卷 标 , 最 长 32 个 双 字 节 


} VPB, * PVPB; 


当然 也 不 是 每 种 存储 设备 都 创建 VPB ,需要 创建 VPB 的 存储 设备 类 型 只 有 4 种 :FILE_ 
DEVICE_DISK FILE_DEVICE_VIRTUAL_DISK FILE_DEVICE_CD_ROM 和 FILE_DEVICE_ 
TAPE。 从 上 述 设 备 种 类 的 名 称 也 可 以 知道 这 些 设备 的 具体 类 型 含义 ,它们 都 是 承载 文件 卷 
的 块 设备 。 

如 图 18 一 8 所 示 i 文件 系统 安装 过 程 中 ,在 通过 IoCreateDevice 创建 设备 对 象 时 创建 
VPB 数据 结构 (通过 lopCreateVpb 方法 创建 VPB ) ,设备 对 象 中 的 VPB 指针 指 回 该 结构 ,VPB 
中 的 DeviceObject 指 回 文件 系统 卷 设 备 , RealDevice 指 问 块 设备 , DeviceObject 是 在 安装 文件 


卷 的 时 候 完 成 指 回 的 。 
| 文件 系统 着 设备 |- 文件 系统 


' 
ee 文件 系 流 块 设备 |: 磁盘 驱动 


RealDevice 


18 -8 VPB 的 连接 关系 


文件 系统 一 般 生 成 两 类 设备 对 象 ,一 类 是 代表 文件 系统 驱动 本 号 的 控制 类 设备 对 和 象 
(Controller Device Object,CDO) ,其 任务 是 修改 整个 驱动 的 内 部 配置 ; 男 一 类 是 文件 系统 卷 
设备 对 象 ,代表 了 有 逻辑 磁盘 ,一 般 一 个 卷 对 应 一 个 逻辑 磁盘 ,也 就 是 被 这 个 文件 系统 挂 载 
(Mount ) 的 卷 (Volume ) ,这 类 设备 对 象 一 般 没 有 设备 名 ,但 却 堆 琶 于 卷 管 理 需 生 成 的 卷 设备 
对 象 之 上 , 且 与 CDO 共享 文件 系统 的 功能 晒 数 ,如 图 18 -9 所 示 。 


er PDO ‘\Device\HarddiskVolumel - [STORAGE\Volume] 
日 …FDO Attached: (unnamed) - \Driver\fvevol 


FDO Attached: (unnamed) - \Driver\volsnap 
加 File System: (unnamed) - \FileSystem\Ntfs 
-<FDO Attached: (unnamed) - \FileSystem\FltMg 


图 18 -9》 卷 管理 器 与 文件 系统 各 自生 成 的 卷 设备 对 象 
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一 个 文件 系统 只 对 应 一 个 CDO, 但 可 以 对 应 多 个 卷 设备 ,甚至 可 以 在 一 个 系统 中 出 现 
FAT32 卷 设备 对 象 和 NTFS 卷 设备 对 象 共 存 的 情况 。 文 件 系 统 在 识别 出 卷 的 时 候 会 生成 一 
个 文件 系统 卷 设备 和 卷 控 制 块 (Volume Control Block ,VCB ) 数 据 结构 ,VCB 是 由 文件 系统 内 
部 日 定义 的 ,通常 作 为 文件 系统 卷 设备 对 象 的 扩展 区 ,用 于 关联 卷 与 文件 系统 (区 别 于 关联 
块 与 文件 系统 的 VPB) 。 也 可 以 把 VCB 看 作文 件 系统 的 全 局 信息 容器 。 

NTFS 设备 对 象 是 由 NTFS 文件 系统 驱动 创建 的 ,这 是 个 CDO, 用 于 注册 到 系统 全 局 队 
列 中 。 同 时 卷 与 文件 系统 挂 载 后 也 生成 了 与 卷 数 量 对 应 的 文件 系统 卷 设备 对 象 ,如 图 18 - 10 
中 的 unnamed 对 象 ,这 些 设 备 对 象 是 未 命名 的 , 且 与 CDO 一 起 共享 文件 系统 的 功能 郧 数 。 


-DRY \FileSystem\Ntfs 
: El DEV (unnamed) 
ATT Attached: (unnamed) - \FileSystem\FltMg 
MED \Device\HarddiskVolumed4 
"DEY (unnamed) 
i be ATT Attached: (unnamed) - \FileSystem\FltMa 
-MED \Device\HarddiskVolume3 
"DEY (unnamed) 
i ATT Attached: (unnamed) - \FileSystem\FltMg 
.MED \Device\HarddiskVolume2 
-DEY (unnamed) 
i ATT Attached: (unnamed) - \FileSystem\FltMa 
MED \Device\HarddiskVolumel 
IDEW \Ntfs 
~ ATT Attached: (unnamed) - \FileSystem\FltMg 


18 -10 CDO 与 文件 系统 卷 设备 对 象 


创建 文件 对 象 时 ,上 层 应 用 程序 将 目录 + 文件 名 通过 IO 管理 器 的 IlopCreateFile 传递 到 
对 象 管理 需 的 相应 方法 中 进行 解析 。 当 解析 到 卷 设备 对 象 的 符号 链接 时 ( 例如”\C:”) 就 重 
定位 到 卷 设 备 对 象 中 ( 例如“\Device\HarddiskVolumel1”) ,继而 调用 卷 设 备 对 象 的 解析 图 数 
IopParseDevice 来 解析 目录 中 卷 设备 符号 链接 之 后 的 内 容 。 这 时 就 要 检查 卷 是否 已 被 识 别 ， 
右 示 被 识别 , 束 完 下 发 MOUNT 的 IRP 进行 挂 载 (识别 ) , 挂 载 成 功 后 再 进行 后 续 的 解析 ;已 
经 被 识别 就 根据 卷 设备 对 象 中 的 VPB 找到 文件 系统 设备 对 象 , 并 从 这 个 设备 对 象 上 漳 到 文 
件 系 统 设 备 栈 的 最 顶层 设备 对 象 ,之 后 下 发 IRP(IRP_MJ_CREATE ) 给 这 个 最 顶层 设备 对 
象 , 以 调用 对 应 文件 系统 的 文件 创建 功能 函数 来 创建 文件 。 

文件 系统 一 般 以 文件 控制 块 ( File Control Block ,FCB ) 来 代表 对 文件 或 目录 的 打开 ,这 里 
的 “打开 ”是 全 局 视野 ,而 不 是 单个 进程 对 文件 的 打开 ,FCB 中 包含 了 文件 或 目录 的 基本 属 
性 ,是 文件 打开 操作 的 上 下 文 。FCB 在 全 局 中 只 有 一 个 ,只 要 被 打开 就 创建 FCB ,无 论 有 多 
少 进程 线程 来 引用 /操作 这 个 文件 ,FCB 都 只 有 一 个 。FCB 数据 结构 的 各 个 成 员 变 量 是 由 文 
件 系 统 驱 动 定义 的 ,因此 NTFS 和 FAT32 文件 系统 中 的 FCB 是 不 一 样 的 , 毕 葛 文件 的 打开 是 
要 通过 文件 系统 的 ,文件 系统 也 理应 对 于 打开 的 上 下 文 拥 有 最 终 解释 权 。 
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文件 系统 一 般 以 上 下 文 控 制 块 (Context Control Block ,CCB ) 来 代表 上 层 应 用 对 文件 的 每 
一 次 打开 。 因 此 对 于 一 个 已 打开 的 文件 ,FCB 只 有 一 个 ,CCB 却 可 能 有 多 个 。 两 个 进程 对 于 
同一 文件 的 访问 会 产生 两 个 不 同 的 CCB。CCB 中 有 指针 指向 FCB ,日 上 述 两 个 CCB 都 会 指 
回 同 一 个 FCB。CCB 数据 结构 的 各 个 成 员 变 量 也 是 由 文件 系统 驱动 来 定义 的 ,因此 不 同 的 
文件 系统 中 CCB 也 是 不 一 样 的 。 不 过 无 论 是 FCB 还 是 CCB ,对 于 文件 系统 的 使 用 进程 (应 
用 程序 或 VO 管理 器 ) 都 是 透明 的 。 应 用 程序 无 法 直接 操纵 FCB 或 CCB。 

Windows 内 核 中 一 般 以 FILE_OBJECT 这 个 数据 结构 来 代表 对 文件 的 打开 ,这 是 个 “一 
手 托 两 家 ”的 角色 ,并 且 要 与 文件 系统 中 的 打开 区 别 开 来 。FILE_OBJECT 中 有 两 个 重要 的 
域 .FsContext 和 FsContext2 ,其 中 FsContext 指 回 FCB 或 VCB( 文件 对 象 是 磁盘 上 的 文件 时 指 
回 前 者 ,文件 对 象 是 文件 卷 时 指 癌 后 者) ;FsContext2 指 问 CCB , 当 文 件 系统 执行 IRP_MJ_ 
CREATE 操作 时 会 设置 这 两 个 域 伍 。 这 几 个 域 之 间 的 关系 如 图 18 -11 所 示 。 


FsContext 
FsContext2 


詹 的 日 录 魏 构 
\( 根 目录 ) 
MyDocuments 
MyDocl.doc 
MyPictures 


VPB 
FsContext 
FsContext2 


MyProjects 
Project] 
Readme.txt 


FsContext . | 0 
FsContext2 | i 1 eadme.txt 


FsContext 
FsContext2 


图 18 一 11 FILE_ OBJECT 与 FCB CCB 之 则 的 关系 


当 执 行 完 系统 调用 NtCreateFile 时 ,也 就 意味 着 执行 完了 IRP_MJ_CREATE 操作 ,FILE_ 
OBJECT 分 别 指向 了 正确 的 FCBAVCB 和 CCB , 当 对 文件 进行 读 写 等 操作 时 就 可 以 方便 地 找 
到 FCB 和 CCB 了 。FILE_OBJECT 中 还 包括 了 VPB 指针 ,指向 VPB 数据 结构 ,从 VPB 中 可 
以 很 方便 地 找到 文件 系统 设备 对 象 和 卷 设备 对 象 。 

图 18 一 11 中 ,文件 对 象 1 和 文件 对 象 2 打开 的 是 同一 个 文件 ,因此 FCB 相同 ,但 是 CCB 
却 有 两 个 ,这 代表 了 两 次 不 同 的 打开 ,而 文件 对 象 3 和 文件 对 象 4 则 分 别 代 表 了 对 不 同文 件 
的 一 次 打开 。 
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18.2 FAT32 文件 系统 


FAT32 文件 系统 是 Windows 中 比较 古老 的 一 种 文件 系统 ,也 叫 文件 系统 驱动 (File 
System Driver ,FSD) ,这 是 一 种 原理 相对 简单 的 文件 系统 。FAT 指 文件 分 配 表 ( File Allocation 
Table) 。FAT32 也 可 以 说 是 一 套 器 平台 的 文件 系统 方案 , 草 容 Windows 和 Linux 两 套 操 作 系 
统 。 在 Windows 7/Windows 8 大 行 其 道 的 今天 ,FAT32 的 市 场 份额 已 经 被 NTFS 远 远 超过 ， 
只 是 在 U 盘 、SD 卡 等 小 容量 存储 介质 中 还 有 较 多 应 用 。 在 FAT32 之 前 还 有 FAT12 和 
FAT16 文件 系统 (FAT12 FAT16 FAT32 这 三 种 文件 系统 之 间 的 主要 区 别 在 于 FAT 项 的 大 小 
不 同 ) ,它们 是 以 16 位 操作 系统 为 基础 设计 的 文件 系统 ,现在 已 几乎 绝迹 ;在 FAT32 之 后 还 
有 exFAT 文件 系统 (也 叫 FAT64 ) ,是 微软 专 为 内 存 (U 盘存 储 卡 ) 设 备 设 计 的 文件 系统 , 兼 
容 性 非常 好 , 主要 是 为 了 解决 FAT32 不 支持 4 GB 以 上 大 文件 管理 的 问题 ,exFAT 支持 的 最 
大 文件 大 小 为 16 EB。 

FAT32 文件 系统 本 质 上 是 一 个 以 复 号 为 下 标的 大 数组 ,数组 中 存储 的 信息 是 该 文件 下 
一 个 族 的 族 号 ,因此 一 个 文件 就 可 以 看 作 一 个 “ 族 链 ”。FAT32 文件 系统 的 映像 载体 是 
fastfat. sys, 其 依赖 的 模块 只 有 ntoskrnl. exe ,也 就 是 说 fastfat. Sys 依赖 的 是 Windows 内 核 , 如 
图 18 一 12 所 示 。 


Module Name Imports T TimeDateSta,.. | ForwarderCha...| Name RVA FTs (IAT) 
| 


szAnsl (nFunctions) Dword Dword Dword Dword Dword 


ntoskrnl,.exe 228 00032C08 00000000 00000000 00034850 00004000 


图 18 一 12 fastfat. sys 的 依赖 模块 


1. FAT32 文件 系统 的 数据 结构 

FAT32 文件 系统 是 以 簇 为 单位 分 配 存储 空间 的 ,也 是 以 簇 为 单位 访问 文件 和 目录 的 。 
刻 由 户 区 组 成 ,每 个 簇 只 能 包含 2 的 整数 次 震 数 量 的 局 区 ,每 个 秘 的 大 小 最 大 为 64 KB ,由 于 
一 个 扇 区 的 大 小 为 $12 B ,因此 一 个 簇 最 多 包含 128 个 扇 区 。 文 件 和 目录 的 内 容 都 存储 在 篮 
中 ,如 果 一 个 文件 或 目录 需要 多 于 一 个 簇 的 空间 , 则 用 FAT 表 来 描述 和 串联 多 个 篮 。 本 质 上 
FAT 结构 用 于 指出 下 一 簇 , 同 时 也 说 明了 簇 的 分 配 状态 。 

在 32 位 系统 中 FAT 表 是 以 4 B 为 单位 进行 划分 的 ,每 个 单元 (单位 ) 存 储 一 个 簇 地 址 。 
0 号 地 址 与 1 号 地 址 被 系统 保留 用 于 存储 特殊 标志 内 容 。 从 2 号 地 址 开始 ,第 X 号 地 址 对 
应 数据 区 中 的 X 号 族 。 我 们 称 FAT 表 中 的 地 址 为 FAT 表 项 ,FAT 表 中 记录 的 值 就 是 FAT 
表 项 值 。 

FAT 表 项 记录 着 它 所 代表 的 复 的 有 关 信 息 , 例 如 是 否 为 空 ,是 不 是 坏 篮 , 是 否 已 经 是 某 
个 文件 的 尾 簇 等 。 对 于 FAT32 文件 系统 来 说 ,FAT 表 有 两 个 重要 作用 :描述 簇 的 分 配 状态 以 
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及 标明 文件 或 日 录 的 下 一 簇 的 簇 号 。 

FAT32 文件 系统 中 簇 号 为 28 位 ,因此 可 以 覆盖 2 个 64 KB 复 大 小 的 磁盘 空间 ,因此 
FAT32 管理 的 最 大 空间 为 2 TB。FAT32 文件 系统 的 核心 是 族 描述 项 ,这 是 一 个 4 B 大 小 的 
数据 结构 ,项 值 的 含义 是 这 样 的 : 

> 0X00000000 :表示 本 簇 空 闲 ; 

> 0X00000001 ~ 0X0FFFFFF7: 表示 同 一 个 文件 中 当前 簇 的 下 一 个 禾 的 禾 号 ,其 中 
0X00000001 和 0XOFFFFFF0 ~ OXOFFFFFF6 被 保留 使 用 ; 

> 0XFFFFFFFF :表示 本 簇 是 所 在 文件 中 的 最 后 一 个 簇 。 

目录 是 FAT32 文件 系统 中 一 种 特殊 的 文件 ,FAT32 文件 系统 的 每 一 个 文件 和 文件 夹 都 
被 分 配 到 一 个 目录 项 中 ,目录 项 中 记录 着 文件 名 文件 大 小 文件 内 容 起 始 地 址 以 及 其 他 一 
些 元 数据 。FATDirEntry 是 FAT32 文件 系统 中 的 目录 项 结构 ,这 是 个 32 B 大 小 的 数据 结构 ， 
存储 了 文件 的 各 种 信息 ,其 数据 结构 是 这 样 的 : 


typedef struct FATDirEntry 
{ 
union 
{ 
struct 1 
unsigned char Filename[8]， // 如 果 0 号 元 素 为 0XE5 , 表示 这 是 一 个 被 删除 的 文件 
Ext[3]: 
};// 这 里 要 注意 的 是 ,文件 名 只 占用 11 个 字 节 ,如 果 文 件 名 很 长 ,就 要 再 分 配 寿 干 个 slot 结 
// 构 (每 个 这 样 的 结构 有 13 个 字 节 的 空间 可 用 ) 以 承载 文件 名 
unsigned char ShortName| 11 |; 
上 
unsigned char Attrib; 
unsigned char lCase; 
unsigned char CreationTimeMs; 
unsigned short CreationTime,CreatlionDate,AccessDate; 
union 
{ 
unsigned short FirstClusterHigh; /1/ 用 于 FAT32 ,代表 了 文件 中 第 一 个 复 的 簇 号 的 高 位 部 分 
unsigned short ExtendedAttributes; 7/ /用 于 FAT12 /FAT16 
}; 
unsigned short UpdateTime; 
unsigned short UpdateDate; 
unsigned short FirstCluster; // 代 表 了 文件 中 第 一 个 簇 的 复 号 的 低位 部 分 
unsigned long FilesSize; / /这 是 个 4 B 的 域 值 , 因此 FAT32 表示 的 最 大 文件 是 4 GB 的 
}FATDirEntry, * PFATDirEntry; 


在 FAT32 文件 系统 下 ,磁盘 物理 分 为 4 部 分 : 

> 保留 区 1( 含 MBR) :占用 一 个 刷 区 大 小 。 

> 保留 区 2( 含 DBR) :FAT32 系统 下 的 保留 区 2 占用 多 个 户 区 ( 比较 第 见 的 为 32 ,34 或 
38 个 扇 区 ) ,除了 DBR ,还 包括 一 个 FSINFO 信息 扇 区 和 DBR 备份 扇 区 。FSINFO 信 
息 扇 区 用 于 记录 文件 系统 中 空闲 篮 的 数量 以 及 下 一 可 用 簇 的 篮 号 等 信息 ,以 供 操作 
系统 参考 。FSINFO 忆 区 一 般 位 于 文件 系统 的 1 号 书 区 ,结构 也 非常 简单 。 

> FAT 区 :由 FATI 和 FAT2 构成 ,FAT2 紧 跟 在 FATI1 后 面 ,其 位 置 可 以 通过 FATI1 的 位 
置 加 上 FATI1 的 扇 区 数 计算 出 来 ,是 FATI] 的 备份 。FAT 实际 上 是 个 固定 长 度 的 数 
组 ,文件 卷 上 的 每 一 篮 在 FAT 中 都 有 对 应 的 一 项 。 
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> 数据 区 :数据 区 是 用 于 保存 数据 的 ,包括 根 目 录 也 保存 于 此 ,这 一 区 域 以 簇 而 不 是 刷 
区 为 管理 单位 。 
这 里 要 注意 的 是 ,在 FAT32 文件 系统 中 ,FAT1 与 DBR 不 是 么 换 春 的 ,而 在 FAT16 文件 
系统 中 它们 则 是 相 邻 的 ,如 图 18 - 13 所 示 。 

当 FAT 文件 系统 被 创建 时 ,FAT 表 会 被 清空 ,在 FAT1I 和 FAT2 表 中 的 0 号 与 1 号 地 址 
被 写 人 特定 值 。 由 于 创建 文件 系统 的 同时 会 创建 根 目 录 , 因 此 也 要 在 数据 区 为 根 目录 分 配 
一 个 复 的 空间 (2 号 簇 作为 起 始 簇 ) 。 

FAT16 文 件 系统 的 数据 组 织 结构 : 


从 过 辑 1 局 区 开始 
从 惕 辑 0 届 区 开始 


FAT32 文 件 系 统 的 数据 组 织 结构 : 


从 迪 辑 6 局 区 开始 ”从 逻辑 32 局 区 开始 “2 号 得 为 起 始 复 
从 风 辑 0 届 区 开始 


18 -13 FAT16 与 FAT32 文件 系统 的 布局 对 比 


在 FAT 文件 系统 中 ,文件 系统 的 元 数据 记录 在 引导 局 区 中 。5 引 导 刷 区 位 于 整个 文件 系 
统 的 0 号 珊 区 ,是 文件 系统 隐藏 区 域 ( 也 称 为 保留 区 ) 的 一 部 分 ,我 们 称 其 为 DBR(DOS 引导 
记录 ) 扇 区 ,DBR 中 记录 着 文件 系统 的 起 始 位 置 、 大 小 、FAT 表 个 数 及 大 小 等 相关 信息 ,如 图 
18 一 14 所 示 。 


侦 移 : 0 3 11 90 510 511 


局 动 代码 SS aa 


18 -14 FAT32 文件 系统 的 DBR 结构 


跳 夸 指令 


从 图 18 -14 可 以 看 出 ,DBR 包含 了 : 

> 用 于 跳 转 到 局 动 代 但 的 跳 转 指令 , 共 3 B; 

> 厂商 标志 (MS ,代表 Microsoft) 和 操作 系统 版 本 号 ( WIN4.1), 共 8 B; 

> 基础 输入 输出 系统 参数 块 ( BIOS Parameter Block ,BPB), 共 79 B; 

> 局 动 代码, 共 420 B; 

> 结束 标志 和 付 , 共 2 B。 

在 FAT 文件 系统 中 ,同时 使 用 情 区 地 址 和 秘 地 址 两 种 地 址 管理 方式 。 只 有 存储 用 户 数 
据 的 数据 区 使 用 簇 进行 管理 (FAT12 和 FAT16 文件 系统 的 根 目 录 除 外 ) ,所 有 簇 都 位 于 数据 
区 。 其 他 文件 系统 管理 数据 区 域 时 不 是 以 秘 地 址 进行 管理 的 ,而 是 使 用 届 区 地 址 进行 管理 。 
文件 系统 的 起 始 已 区 为 0 号 面 区 (逻辑 0 肩 区 )， 

虽然 原则 上 FAT32 文件 系统 允许 根 目 录 位 于 数据 区 的 任何 位 置 ,但 通 笛 情 况 下 它 都 位 
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于 数据 区 的 起 始 悄 区 ,数据 区 起 始 悄 区 号 即 根 目录 户 区 号 。 在 FAT 文件 系统 中 , 先 要 寻找 数 
据 区 的 第 一 簇 ( 即 2 号 禾 ) 的 地 址 , 它 不 是 位 于 文件 系统 开始 处 ,而 是 位 于 数据 区 。 在 数据 区 
前 面 是 保留 区 域 和 FAT 区域, 再 往 前 还 有 MBR 区 域 ,这 些 区 域 都 不 使 用 FAT 表 进 行 管理 。 
因此 ,数据 区 以 前 的 区 域 只 能 使 用 局 区 地 址 而 无 法 使 用 簇 地 址 。 
2. FAT32 文件 系统 的 加 载 和 初始 化 
fastfat. sys 很 显然 是 个 驱动 模块 (NT 式 驱 动 ) ,其 入 口 尔 数 DriverEntry 的 主要 功能 包括 : 
> 创建 设备 对 象 Fat ,这 是 一 个 FILE_DEVICE_DISK_FILE_SYSTEM 类 型 的 设备 对 
象 ,也 是 一 个 CDO ,但 不 是 指 块 设备 。 所 谓 块 设备 就 是 磁盘 这 样 的 设备 , 块 设备 对 象 
是 由 磁盘 驱动 创建 的 。Fat 这 个 设备 对 和 象 是 文件 系统 驱动 创建 的 控制 设备 对 象 ,用 于 
修改 配置 . 挂 人 全 局 文件 系统 队列 。 
> 初始 化 驱动 对 象 的 功能 函数 为 VfatBuildRequest, FAT32 文件 系统 的 驱动 程序 支持 
IRP_MJ_READ\IRP_MJ_WRITE 等 较为 常规 的 主 功能 码 。 
> 初始 化 三 个 私有 列表 :FcbLookasideList、CcbLookasideList 和 IrpContextLookasideList， 
并 设置 快速 IO 图 数 。 这 几 个 成 员 变 量 都 存在 于 设备 对 象 Fat 的 扩展 区 域 里 ,这 个 扩 
展区 域 被 定义 为 VFAT_GLOBAL _DATA 类型。 
> 调用 方法 IoRegisterFileSystem 注册 FAT32 文件 系统 。 全 局 系统 中 有 4 类 文件 系统 列 
表 ( 后 两 种 类 型 的 文件 系统 现在 已 经 很 少 用 了 ) ,分 别 是 : 
。 人 磁盘 文件 系统 驱动 列表 IopDiskFsListHead: 存放 的 文件 系统 设备 对 象 类 型 为 
FILE_DEVICE_DISK_FILE_SYSTEM 。 
网 络 文件 系统 驱动 列表 IopNetworkFsListHead :存放 的 文件 系统 设备 对 象 类 型 为 
FILE_DEVICE_NETWORK_FILE_SYSTEM, 
光盘 文件 系统 驱动 列表 IopCdRomFsListHead :存放 的 文件 系统 设备 对 象 类 型 为 
FILE_DEVICE_CD_ROM_FILE_SYSTEM, 
。 人 磁带 文件 系统 驱动 列表 IopTapeFsListHead :存放 FILE_DEVICE_TAPE_FILE_ 
SYSTEM 类 型 的 文件 系统 设备 对 象 。 
IoRegisterFileSystem 就 是 根据 优先 级 将 创建 的 设备 对 象 Fat 挂 人 某 个 队列 的 队 头 或 队 
尾 , 之 后 调用 方法 IopNotifyFileSystemChange 通知 文件 系统 有 变化 (新 增 )。 在 全 局 的 
FsChangeNotifyListHead 列表 中 存放 看 各 软件 预先 注册 的 数据 结构 ,一 旦 有 文件 系统 加 载 或 
印 载 ,系统 就 会 通 历 这 个 列表 回 注 册 的 软件 发 出 通知 。 
fastfat. sys 没 有 定义 AddDevice 因数 ,执行 完 DriverEntry 后 IO 管理 器 不 会 调用 
AddDevice 方法 ,因此 Fat 也 不 会 被 纳入 设备 对 象 堆栈 体系 。 
3. 文件 卷 的 安装 
文件 卷 是 建立 在 人 硬盘 和 分 区 之 上 的 一 个 人 逻辑 层 。 块 存储 设备 在 安装 文件 卷 之 前 只 是 一 
个 原始 的 存储 设备 , 且 只 能 通过 扇 区 读 写 ,此 时 并 没有 一 个 文件 系统 来 组 织 文件 ,更 没有 文 
件 目 录 的 概念 ,因此 也 就 无 法 通过 目录 管理 文件 。 安 装 文件 卷 之 后 , 某 种 文件 系统 (例如 
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FAT32/ZNTFS ) 将 文件 卷 组 织 了 起 来 ,可 以 做 到 以 文件 为 单位 进行 文件 管理 ,也 可 以 采用 目录 
方式 对 文件 寻 址 。 文 件 卷 的 安 凌 是 从 磁盘 访问 升级 到 文件 访问 的 关键 一 步 。 

文件 卷 的 安装 是 由 文件 系统 完成 的 。LO 管理 硕 发 出 一 个 要 求 安装 文件 卷 的 IRP, 其 主 
功能 人 码 为 [RP_MJ_FILE_SYSTEM_CONTROL, 副 功能 人 码 为 [RP_MN_MOUNT_VOLUME ,I/O 
管理 器 调用 IoCallDriver 方法 将 IRP 下 发 到 FAT32 文件 系统 驱动 中 , 其 设备 对 象 是 在 
DriverEntry 中 创建 的 设备 控制 对 象 Fat。 其 实在 FAT32 文件 系统 中 ,控制 设备 对 象 也 用 来 识 
别 FAT 格式 的 文件 卷 。 

FAT32 文件 系统 安装 文件 卷 的 函数 调用 过 程 如 图 18 -15 所 示 。 


loCallDriver 
ViatBuildRequest 


ViatDispatchRequest 


ViatFileSystemControl 


ME ——— 


18 一 15 安装 文件 卷 的 IRP 的 流向 


VfatMount 是 文件 卷 安装 的 具体 执行 逻辑 ,会 首先 辨认 目标 设备 上 的 文件 是 否 为 FAT 文 
件 卷 ,其 具体 执行 步骤 如 下 : 

(1) 获取 磁盘 几何 信息 :所 谓 儿 何 信息 ,就 是 磁盘 是 固定 的 还 是 可 拆 外 的 、. 恒 区 字 节 数 
等 基础 信息 。 这 是 通过 回 磁 盘 驱 动 程序 下 发 主 副 功能 码 分 别 为 IRP_MJ_DEVICE 
CONTROL IOCTL_DISK_GET_DRIVER_GEOMETRY 的 IRP 实现 的 。 

(2) 获取 磁盘 分 区 信息 :这 是 通过 问 磁 盘 驱 动 下 发 主 功能 码 为 IRP_MJ_DEVICE_ 
CONTROL 副 功 能 码 为 IOCTL_DISK_GET_PARTITION_INFO 的 IRP 实现 的 。 获 取 分 区 信息 
后 判断 是 否 合法 ,如果 不 合法 则 证 明 该 卷 不 可 辨认 ,退出 FAT32 文件 系统 的 安装 过 程 。 

(3 ) 读 取 第 一 个 扇 区 :使 用 VfatReadDisk 方法 获取 引导 扇 区 (第 一 个 扇 区 ) 中 的 数据 ,也 
就 是 磁盘 引导 块 ,VfatReadDisk 下 发 IRP_MJ_READ 的 IRP 到 磁盘 驱动 中 读 取 扇 区 内 容 , 以 
验证 该 卷 是 否 确实 为 FAT 文件 卷 。 

(4) 创建 文件 系统 卷 设备 对 象 : 这 是 个 类 型 为 FILE_DEVICE_FILE_SYSTEM 的 未 命名 
设备 对 象 ,与 CDO( DriverEntry 中 创建 的 FILE_DEVICE_DISK_FILE_SYSTEM 类 型 的 设备 对 
象 ) 共享 FAT32 文件 系统 驱动 的 功能 阴 数 ,代表 了 具体 的 文件 卷 。 这 个 设备 对 象 的 扩展 结 
构 就 是 YCB。 创建 文件 系统 卷 设备 对 象 的 方法 依然 是 IJoCreateDevice 。 

(5) 安装 磁盘 ,并 获取 相关 信息 记录 在 FATINFO 数据 结构 中 :这 是 通过 FAT32 文件 系 


334 


SN 第 18 章 Windows 文件 系统 


统 的 VfatMountDevice 方法 实现 的 。 

(6) 创建 VCB 中 的 FATFileObject 并 初始 化 : FATFileObject (FILE_OBJECT ) 中 有 
FsContext 和 FsContext2 两 个 域 分 别 指向 FCB 和 CCB, 这 里 要 创建 一 个 名 为 “$FAT$$” 的 
FCB 和 和 暂 存 了 状态 信息 的 CCB ,并 完成 指 问 。 

(7) 初始 化 缓存 文件 内 容 的 机 制 : 通 过 CclInitializeCacheMap 方法 实现 。 

(8) 将 卷 标 读 到 VPB 中 :通过 ReadVolumeLabel 方法 实现 卷 标 读 取 抬 作 。 

注意 :磁盘 的 1 号 簇 用 于 存储 FAT 表 ,FAT 表 有 多 大 这 个 艇 就 有 多 大 ,是 1 号 簇 没有 后 

经 过 了 这 些 繁 琐 的 步 骆 后 安装 就 完成 了 ,文件 系统 为 每 个 卷 设备 生成 了 一 个 未 命名 设 
备 对 象 , 这 些 未 命名 的 设备 对 和 象 就 是 文件 系统 的 卷 设 备 对 象 , 是 文件 卷 安 流 后 的 结果 。 当 使 
用 NtCreateFile 图 数 打 开 革 个 目录 /文件 时 , 遇 到 卷 标 后 转 到 解析 盯 数 lopParseDevice 以 解析 
日 录 后 面 的 内 容 。 夺 发 现 路 径 中 的 某 个 市 点 所 在 的 文件 卷 尚 未 安 疲 , 则 会 调用 安 疙 文件 卷 
的 过 程 。 

4. 文件 的 创建 

文件 的 创建 包含 两 层 意思 :创建 与 打开 。 因 此 所 谓 文件 的 创建 不 仅仅 是 创建 文件 ,还 要 
打开 文件 。FAT32 文件 系统 对 于 文件 的 创建 有 两 种 方式 : 

> 给 定 全 路 径 名 :例如 “\??\C:\Windows\System32\Notepad. exe”。 注 意 “\??\" 是 NT 

格式 路 径 名 的 特定 标识 ,代表 了 文件 系统 的 根 目 录 , 内 核 只 能 识别 NT 格式 的 路 径 名 。 

> 给 定 一 个 已 打开 的 目录 和 相对 路 径 名 :例如 已 打开 目录 “\??\C:\Windows” ,目录 后 

面 的 相对 路 径 名 是 “System32\Notepad. exe”。 

下 面 我 们 分 别 来 介绍 这 两 种 方式 的 文件 创建 过 程 。 先 来 看 第 一 种 方式 ,其 文件 创建 步 
又 如 下 ; 

(1) Windows API 调用 内 核 的 NtCreateFile 方法 创建 文件 ,内 核 函 数 调用 对 象 管理 需 中 
的 ObjLookupObjectName 处 理 和 解析 文件 路 径 。 

(2) 解析 文件 路 径 名 , 当 解 析 到 路 径 *\C: ”时 ,由 于 上 述 路 径 是 符号 链接 ,因此 对 象 管 
理 需 调用 ObjParseSymbolicLink 方法 进行 解析 ,并 且 认 为 这 是 一 个 文件 卷 设 备 符 号 , 故 将 这 
个 符号 链接 解析 成 目标 设备 对 象 "“Device\Harddisk0\Partition0”, 并 调用 设备 对 象 解析 晒 数 
IoParseFile 继续 解析 后 面 的 内 容 。 注 意 ,“ Device\Harddisk0\Partition0” 这 个 设备 对 象 的 VPB 
指针 的 DeviceObject 域 已 指向 文件 卷 设备 对 象 , 代 表 这 个 设备 已 经 安装 了 文件 系统 。 

(3) 调用 设备 对 象 解析 图 数 IopParseFile 对 “Windows \System32\Notepad. exe” (后 续 的 
路 径 名 ) 进行 解析 。 

(4) 解析 完成 后 对 象 管理 天 将 文件 创建 请 求 连 同文 件 卷 设备 对 象 以 IRP(IRP_MJ_ 
CREATE ) 的 形式 下 发 给 FAT32 文件 系统 驱动 。 

(5) FAT32 文件 系统 调用 文件 创建 的 功能 销 数 VfatCreate 进行 文件 创建 。 

第 二 种 方式 的 创建 步骤 就 要 稍微 复杂 一 点 ,如 下 所 示 : 
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(1) 针对 已 经 打开 的 目录 (“\??\C.\Windows”) ,获取 其 FILE_OBJECT, 这 是 个 文件 对 
象 ,代表 了 对 该 目录 的 一 次 打开 操作 的 上 下 文 。 这 个 数据 结构 的 VPB 指针 指向 VPB, VPB 
的 DeviceObject 域 指 回 打开 的 具体 文件 卷 的 设备 对 象 。 

(2) 对 有 象 管 理 需 调用 lopParseDevice 对 剩余 的 相对 路 径 名 (“ System32\Notepad. exe”) 进 
行 解 析 。 解 析 时 以 步骤 (1) 中 的 DeviceObject( 即 文件 卷 对 象 ) 为 参数 。 

(3) 对 和 象 绾 理 硕 将 文件 创建 请 求 连 同文 件 卷 设备 对 象 以 IRP 的 形式 下 发 给 文件 系统 驱 
动 , 这 就 与 第 一 种 方式 一 致 了 。 

(4) FAT32 文件 系统 调用 文件 创建 的 功能 函数 VfatCreate 进行 文件 创建 。 

上 述 两 种 方式 中 虽然 给 定 的 路 径 名 不 同 ,但 是 基本 思想 都 是 一 致 的 , 即 都 是 以 文件 卷 设 
备 对 象 为 基础 调用 FAT32 文件 系统 的 文件 创建 功能 函数 。 我 们 解析 文件 路 径 时 不 能 直接 跑 
到 文件 卷 中 进行 解析 ,而 应 借助 文件 卷 对 应 的 文件 系统 驱动 实现 解析 ,这 个 实现 解析 的 功能 
郧 数 就 是 VfatCreate 。 

VfatCreate 调用 fastfat. sys 中 的 VfatCreateFile ,其 中 VfatCreateFile 的 参数 DeviceObject 就 
是 从 IRP 传 下 来 的 代表 具体 文件 卷 的 设备 对 象 ,而 非 文 件 系统 驱动 的 控制 设备 对 象 (CDO ) 。 
其 处 理 流程 是 这 样 的 : 

(1) 针对 “\??\C .\Windows\System32” 这 一 个 路 径 , 调 用 fastfat. sys 中 的 VfatOpenFile 方 
法 进行 处 理 , 以 尝试 打开 这 个 文件 路 径 。 

(2) 如 果 上 述 打开 操作 失败 , 则 证 明 目 标 目 录 项 尚 不 存在 ,这 时 需要 在 目标 文件 所 在 的 
目录 中 增加 一 个 目录 项 ,并 创建 文件 控制 块 (FCB ) ,这 个 FCB 代表 了 对 该 目录 的 打开 ,然后 
再 次 调用 VfatOpenFaile 方法 。 

5. 文件 的 读 写 

下 面 以 读 文 件 为 例 来 讲述 FAT32 文件 系统 读 写 的 具体 步 坚 ,这 也 是 系统 调用 
NtReadFile 的 执行 过 程 : 

(1) LO 管理 大 通过 文件 句柄 找到 FILE_OBJECT, 进 而 获得 FCB 和 VPB。 从 VPB 的 
DeviceObject 域 中 获取 讯 目标 文件 所 属 文件 卷 的 设备 对 象 。 之 所 以 能 和 完 找 到 FILE_OBJECT， 
是 因为 读 写 文件 时 文件 必定 已 经 打开 了 ,FILE_OBJECT 是 存在 的 。 

(2) WO 管理 器 下 发 主 功 能 码 为 IRP_MJ_READ 的 IRP 到 文件 系统 驱动 fastfat. sys ,文件 
系统 对 应 的 主 功能 印 数 是 VfatDispatchRequest , 它 调 用 VfatRead。VfatRead 的 参数 包括 目标 
文件 的 FCB .文件 卷 对 象 . 读 取 数据 的 依 移 和 长 度 、 每 个 局 区 的 字 市 数 等 。 

(3) VfatRead 判断 是 否 从 缓存 谈 出 : 

> 厂 缓 存 中 有 对 应 的 数据 , 则 调用 缓存 管理 带 的 读 取 函数 读 出 ; 

> 否则 ,从 磁盘 文件 读 出 ( VfatReadFileData) ,方法 是 问 磁 盘 驱 动 下 发 谈 取 指令 。 

在 处 理 文件 读 写 请 求 时 ,FAT32 文件 系统 一 般 会 使 用 缓存 管理 带 来 提高 谈 与 性 能 和 简 
化 VO 操作。 
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18.3 NTFS 文件 系统 


NTFS( New Technology File System ,新 技术 文件 系统 ) 是 Windows 独 有 的 文件 系统 ,采用 
本 "一切 缘 文 件 ” 的 设计 思想 ,其 基本 原则 与 特点 包括 : 

> 以 主 文件 表 ( Master File Table, MFT) 为 核心 。 

> 役 盘 上 的 任何 对 象 包括 目录 都 是 文件 ,每 个 文件 都 有 一 个 或 多 个 文件 记录 来 管理 这 
些 文件 。 

> 与 文件 相关 的 项 都 被 认为 是 属性 ,属性 分 为 常 驻 属性 和 非常 驻 属性 两 种 。 

> 族 是 NTFS 和 省 理 的 基本 单元 ,就 算 文件 只 有 一 个 字 市 也 占用 一 个 簇 。 

> 流 是 NTFS 存储 的 基本 单元 。 

> 具有 良好 的 安全 性 ,可 以 屏蔽 未 授权 用 户 的 访问 。 

> 具有 良好 的 可 徘 性 ,可 以 从 意外 失败 中 恢复 数据 ,采用 事务 的 方式 保证 操作 原子 性 。 

> 文 持 长 文件 名 , 文 持 长 达 255 B 的 文件 名 ,跳出 了 8.3 命名 规则 的 束缚 。 

> 具有 严格 的 一 致 性 检查 ,NTFS 卷 上 的 每 个 文件 都 有 一 个 称 为 文件 引用 号 (也 称 文件 
去 引号) 的 64 位 的 唯一 标识 。 文 件 引 用 号 由 两 部 分 组 成 :文件 号 和 文件 顺序 号 。 文 
件 号 占 48 位 ,对 应 于 该 文件 在 MFT 中 的 位 置 ;文件 顺序 号 随 着 每 次 文件 记录 的 重用 
而 增加 。 

表 18 一 1 列 出 了 NTFS FAT32 与 exFAT 三 种 文件 系统 特性 的 对 比 。 

表 18-1 NTFS .FAT32 与 exFAT eT 


文 持 的 最 大 分 支持 的 最 大 文件 操作 系统 支持 度 


512 B/1 KB/2 KB/ 
4 KB/8 KB/16 KB/ | Windows XP 及 以 上 版 本 
32 KB/64 KB 


4 KBA8 KB/16 KB/ 


Wi d S 外 也 上 “ 
32 KB/64 KB indows XP 及 以 上 版 本 


512 B~32 MB Windows Vista/ Windows 8 
NTFS 卷 的 结构 如 图 18 - 16 所 示 ,主要 包括 NTFS 引导 肩 区 、 主 文件 表 ( MFT) .文件 数据 
和 MFT 的 副本 。 与 FAT32 卷 相 比 ,NTFS 卷 的 首部 也 是 引导 书 区 , 亦 位 于 卷 的 第 一 个 逻辑 而 
区 ,包括 了 当前 卷 的 布局 结构 .文件 系统 的 结构 .引导 代码 等 信息 。 


NTFS 引 导 扁 区 文件 数据 主 文件 表 (MET) 的 副本 


图 18-16 ”NTFS 卷 结构 


NTFS 文件 系统 的 引导 局 区 包含 了 以 下 内 容 , 如 图 18 -17 所 示 : 
跳 转 指令 ,用 于 跳 转 到 局 动 代 码 , 共 3 B; 
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> NTFS 标志 字符 串 (NTFS) +4 个 空 字符 , 共 8 B; 

> 基础 输入 输出 系统 参数 块 (BPB) 和 扩展 BPB , 共 73 B ,这 部 分 数据 描述 了 卷 和 文件 系 
统 的 详细 信息 ,例如 扇 区 字 节 数 . 复 记 区 数 ,存储 介质 类 型 . 主 文件 表 及 其 副本 的 逻辑 
入 编号 等 ; 

> 局 动 代码 ,426 B，; 

> 结束 标志 符 ,2 B。 


侗 移 : 0 3 510 511] 
时 E 转 指令 


18 一 17 NTFS 文件 系统 的 DBR 结构 


由 此 可 见 ,NTFS 文件 系统 的 引导 扇 区 与 FAT32 文件 系统 的 引导 扇 区 在 布局 上 基本 一 
致 。 注 意 ,图 18 -16 中 的 NTFS 卷 结构 只 是 示意 图 ,实际 上 MFT 可 以 在 卷 上 的 任意 位 置 ,一 
般 由 引导 扇 区 的 BPB 提供 MFT 的 真实 地 址 。 

1. 主 文 件 表 

NTFS 文件 系统 的 核心 是 主 文件 表 ( MFT) 。MFT 本 质 上 是 一 个 关系 型 数据 库 ,在 卷 上 的 
任何 一 个 文件 ,包括 MFT 日 己 ,都 在 MFT 中 有 一 条 记录 ,其 中 MFT 的 第 一 条 记录 就 是 描述 
它 目 己 的 。 除 了 MIFT 本 号 ,在 文件 系统 格式 化 时 ,还 会 创建 其 他 一 些 元 数据 ,包括 日 志 信 
息 . 主 文件 表 副 本 卷 信 息 .安全 文件 等 ,包括 MFT 日 身 在 内 的 这 些 元 数据 占据 MFT 的 前 16 
条 记录 ,从 第 24 条 记录 开始 才 是 用 户 文 件 / 目 录 的 元 信息 记录 。 主 文件 表 的 前 16 条 记录 由 
“$ "符号 开头 ,因此 是 隐藏 的 ,是 不 可 被 用 户 态 进程 访问 的 ,如 表 18 -2 所 示 。 

表 18 -2 MEFT 中 的 元 数据 .用户 文件 数据 及 其 索引 


EE EE 


下 要 $BITMAP 位 图 文件 
aa 


i $EXTEND METADATA DIRECTORY 扩展 元 数据 目录 
2 $EXTEND \ $REPARSE 重 解析 点 文件 
3 $EXTEND \ $USNJRNL 变更 日 志文 件 
4 $EXTEND \ $QUOTA 配额 管理 文件 
旺 - 台 $EXTEND \ $0BJID 对 象 ID 文件 


"4 
厅 所 
12 
13 
14 
15 
23 十 


6 | 


EE 
其 中 元 数据 $ROOT 保存 了 存放 于 该 卷 的 根 目录 下 的 所 有 文件 和 目录 的 索引 。 在 访问 
了 一 个 文件 以 后 ,NTFS 就 保存 该 文件 的 MFT 的 引用 ,以 便于 第 二 次 直接 访问 使 用 。 而 元 数 
据 $BITMAP 中 的 每 一 位 代表 了 卷 中 的 一 个 禾 , 可 以 被 扩大 ,因此 NTFS 卷 可 以 被 很 方便 地 
扩展 。 
MFT 中 的 元 数据 是 非常 重要 的 ,因此 应 该 对 其 进行 备份 存储 ,其 位 置 大 约 在 数据 区 域 的 
中 间 部 位 ,如 图 18 一 18 所 示 。 


i 文件 存储 区 | 文件 存储 区 


MET 元 数据 文件 MEFT 中 前 16 个 元 数据 文件 的 备份 
图 18 -18 MFT 中 重要 元 数据 的 备份 


NTFS 把 磁盘 分 成 了 两 大 部 分 ,其 中 大 约 12% 被 分 配给 了 MFT, 以 满足 其 不 断 增长 的 文 
件数 量 ;余下 的 88% 的 空间 被 分 配 用 来 存储 文件 。 当 文件 耗 尽 了 存储 空间 时 ,操作 系统 会 简 
单 地 减少 MFT 空间 ,并 把 省 下 来 的 这 部 分 空间 分 配给 文件 存储 。 当 有 剩余 空间 时 ,这 些 空 
间 叉 会 重新 划分 给 MFT。 虽 然 系 统 尽力 保持 MFT 空间 的 专用 性 ,但 是 有 时 不 得 不 做 出 
牺牲 。 

每 个 文件 或 目录 在 NTFS 中 都 是 一 组 “属性 - 值 ? 对 ,包括 时 间 戳 .访问 模式 、 链 接 到 该 文 
件 的 数量 等 通用 信息 ,也 包括 文件 名 、 属 性 列表 、 对 象 标识 符 .安全 描述 符 .扩展 属性 等 非 通 
用 性 信息 ,更 包括 数据 属性 。 

在 NTFS 中 ,一 个 文件 的 内 容 都 被 定义 为 数据 属性 。 从 某 种 意义 上 来 看 ,NTFS 中 的 文件 
就 像 JSON 格式 的 数据 一 样 ,每 一 项 都 由 属性 头 和 属性 体 构成 。 不 过 也 不 是 所 有 的 属性 都 在 
MFT 中 ,因为 一 条 MFT 记录 的 大 小 是 1 KB ,如 果 文 件 的 数据 属性 和 其 他 属性 加 起 来 不 超过 
1 KB 自然 可 以 放 在 一 条 记录 中 ,但 如 果 是 个 大 文件 ,其 总 大 小 超过 1 KB , 自然 会 溢出 到 记录 
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之 外 。 我 们 将 MFT 记录 之 内 的 属性 称 为 “ 驻 留 属性 ”, 淤 出 的 属性 称 为 “ 非 驻 留 属性 ” ,前 者 
一 般 包 括 文件 名 \ 时 间 截 等 ;后 者 主要 是 数据 属性 。 图 18 -19 展示 了 MFT 的 记录 格式 与 驻 
留 属性 非 驻 留 属性 , 表 18 -3 则 列 出 了 NTFS 预定 义 的 属性 类 型 。 


Extent 


J 
Fxtent 
| 
Extent 
4 
Extent 1 

条 J 

件 Extent 2 

ja | 

I Extent 3 
J 


结 事 标志 FF FF FF FF 


18 -19 MEFT 文件 记录 的 格式 与 驻 留 属 性 、 非 驻 留 属性 


表 18 -3 NTFS 预定 义 的 属性 类 型 


$VOLUME_INFORMATION | 卷 信息 属性 , 仅 存 在 于 $VOLUME 元 数据 文件 中 


$VOLUME_ NAME 卷 名 称 , 仅 存在 于 $VOLUME 元 数据 文件 中 


标准 属性 ,这 包括 基本 文件 属性 ,如 只 读 存档; 时 间 标 记 ,如 文件 的 创建 
SSTANDARD_INFORMATION | 时 间 和 最 近 一 次 修改 的 时 间 ; 有 多 少 目录 指向 本 文件 ,也 就 是 它 的 硬 链接 
数 (Hard Link Count) 


文件 名 属性 ,使 用 U Unicode 字符 表示 。 由 于 MS-DOS 不 能 正确 识别 
$FILE_NAME Win32 子 系统 创建 的 文件 名 , 当 Win32 子 系 统 创建 一 个 文件 名 时 ,NTFS 会 


自动 生成 一 个 备用 的 MS-DOS 文件 名 ,所 以 一 个 文件 有 多 种 文件 名 属性 


安全 描述 符 属 性 ,描述 了 文件 系统 的 访问 控制 安全 属性 。 主 要 用 于 保护 
文件 以 防止 未 授权 访问 


文件 的 数据 属性 ,也 就 是 文件 的 内 容 ( 在 NTFS 文件 系统 中 ,一 个 文件 除了 
支持 文件 数据 即 未 命名 的 属性 外 ,还 可 支持 其 他 命名 属性 , 即 可 以 有 多 个 
数据 属性 ,目录 没有 默认 的 数据 属性 ,但 是 有 可 选 的 命名 数据 属性 ) 


$INDEX_ROOT 索引 根 属性 
$INDEX_ALLOCATION 索引 分 配属 性 


$SECURITY_DESCRIPTOR 
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属性 列表 , 当 一 个 文件 需要 使 用 多 条 MFT 记录 时 用 来 表示 该 文件 的 属性 
列表 


$OBJECT ID 对 和 象 ID ,64 字 节 的 标识 符 , 低 16 字 节 用 于 描述 文件 或 目标 标识 


$ATTRIBUTE_LIST 


$REFARSE POINT 重点 解析 属性 
扩充 属性 ,主要 为 了 与 0Sx2 兼容 , 现 已 使 用 不 多 
$EA INFORMATION 扩充 属性 信息 ,主要 为 了 与 05/2 兼容 , 现 已 使 用 不 多 


$LOGGED_UTILITY_ EFS 加 密 属 性 ,主要 为 实现 EFS( Encryped File System ,加 密 文件 系统 ) 而 存储 
STREAM 相关 加 密 信息 ,如 解码 密 钥 .合法 访问 的 用 户 列表 等 

不 是 每 一 条 记录 都 有 相同 的 属性 ,记录 之 间 只 是 有 一 些 共 性 的 属性 是 必须 要 有 的 ,每 一 
条 记录 可 以 根据 自己 的 数据 特性 选择 属性 类 别 。 当 包括 数据 属性 在 内 的 所 有 属性 都 在 一 条 
记录 中 时 ,从 MFT 就 可 以 读 取 文件 数据 了 ;但 如 果 还 有 非 驻 留 属性 , 则 要 进一步 访问 其 他 局 
区 , 非 驻 留 属 性 一 般 是 数据 属性 。 非 驻 留 属性 被 组 织 为 一 些 族 ,但 这 些 族 就 不 在 MFT 中 了 ， 
而 是 在 NTFS 卷 的 数据 区 域 中 (文件 数据 部 分 ) 。 

2. NTFS 数据 区 域 

NTFS 数据 区 域 中 的 族 按 照 RUN( 串 ) 的 概念 来 组 织 。 所 请 RUN ,就 是 指 属 性 中 一 段 连 
续 的 字 节 范围 在 磁盘 上 占据 的 逻辑 簇 ,用 <VCN ,LCN ,LengthOfRun > 这 种 记录 结构 来 表示 。 
NTFS 使 用 逻辑 禾 号 ( Logical Cluster Number ,LCN ) 和 虚拟 禾 号 (Virtual Cluster Number ,VCN ) 
来 对 簇 进行 定位 。 

> VCN: 是 对 属于 特定 文件 的 簇 从 头 到 尾 所 进行 的 顺序 编号 ,以 便于 引用 文件 中 的 数 

据 。VCN 表示 某 文 件 / 目 录 在 所 占 空 间 中 的 禾 编 号 ,每 个 文件 的 VCN 都 是 从 0 开始 
编号 的 。VCN 可 以 映射 成 LCN ,并 且 不 必要 求 在 物理 空间 上 连续 。 

> LCN: 是 对 整个 卷 中 所 有 的 族 从 头 到 尾 所 进行 的 顺序 编号 ,表示 某 文件 /目录 所 占 空 

间 的 族 在 卷 中 的 禾 编 号 ,不 一 定 是 从 0 开始 的 。 

> LengthOfRun :本 串 的 长 度 , 即 族 的 个 数 。 

当 某 个 属性 是 非 驻 留 的 , 则 在 MFT 的 文件 记录 中 该 属性 的 属性 头 会 标识 出 一 个 或 多 个 
行 串 ,如 图 18 -20 所 示 。 访 问 文件 时 首先 判断 属性 头 的 行 串 信息 ,判断 该 属性 是 否 驻 留 ,从 
而 采用 不 同 的 方式 访问 整个 数据 。 注 意 ,每 一 个 行 串 中 的 LCN 是 连续 的 。 

还 有 一 种 情况 , 即 文件 中 的 属性 太 多 ,一 条 记录 放 不 下 了 。 这 种 情况 也 会 导致 溢出 ,此 
时 可 以 使 用 SATTRIBUTE_LIST 结构 来 存放 这 些 属性 。 $ATTRIBUTE_LIST 包含 了 该 文件 各 
个 属性 的 名 称 和 类 型 代码 ,以 及 该 属性 所 在 MFT 记录 的 编号 。 采 用 多 条 文件 记录 来 存放 这 
些 属性 ,其 中 第 一 条 MFT 记录 被 称 为 基本 文件 记录 。 

NTFS 中 每 个 属性 由 单个 的 流 ( stream ) 组 成 有, 称 为 属性 流 。 流 是 简单 的 字符 队列 , NTFES 
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数据 属性 


况 件 记录 | 站 行 串 表 : 
标准 信息 #1<0.1856 .4> 


#2<4,2324,3> 


行 串 2 
VCN 
LCN 1856 1857 1858 1859 LCN 2324 2325 2326 
图 18-20 非 驻 留 属 性 的 行 串 信息 
提供 对 属性 流 的 各 种 操作 .创建 .删除 、 读 取 、 写 人 等 。 读 瑟 操 作 一 般 是 针对 文件 的 未 命名 属 
性 的 ,对 于 已 命名 属性 则 可 以 通过 已 命名 的 属性 流 句 法 来 进行 操作 。NTFS 属性 流 本 是 
NTFS 文件 格式 中 的 一 种 正常 特性 ,但 却 可 以 被 一 些 木 马 病毒 所 利用 ,而 杀毒 软件 对 NTFS 属 
性 流 文件 的 检测 能 力 十 分 薄弱 ,很 多 木马 病毒 就 起 此 机 会 利用 NTFS 属性 流 将 目 己 完全 隐藏 
在 系统 中 。 

NTFS 的 目录 只 是 一 个 简单 的 文件 名 和 文件 引用 号 的 索引 ,如 有 果 效 据 量 不 大 日 然 可 以 在 
一 个 记录 中 存储 ;如 果 目 录 中 文件 和 子 目 录 的 数量 很 大 , 则 需要 以 B+ 树 的 方式 存储 这 些 文 
件 和 子 目录 信息 以 便于 快速 查找 。 图 18 -21 和 18 -22 是 两 个 目录 记录 结构 的 示例 。 


文件 索引 


0 


图 18-21 小 目录 的 目录 记录 结构 


文件 和 子 目录 的 索引 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 
文件 名 索引 根 索引 分 配 位 图 
(目录 名 ) file6 filel2 (YCN-LCN 映 射 表 ) i 
索引 缓冲 区 


VCN 0 | 2 


MET 目录 记录 


3 索引 缓冲 区 
VCN 全 0 10 11 
加 四 四 区 
filel8 | tile20 
LON 1785 1786 1787 1788 


索引 缓冲 区 
VCN 4 5 


Dn 7 
加 加 可 国 
LCN 2543 2544 2545 2546 
屋 18 -22 大 目录 的 目录 记录 结构 


LON 3278 3279 3280 3281 
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3. NTFS 驱动 模块 
NTFS 文件 系统 的 驱动 承载 映像 文件 是 ntfs. sys。 与 FAT32 文件 系统 的 fastfat. sys 模块 
类 似 ,ntfs. sys 也 是 一 个 NT 式 驱 动 模块 ,其 依赖 的 模块 如 图 18 -23 所 示 。 


Module Name Imports OFTs TimeDateSta... | ForwarderCha,...| Name RVA FTs (IAT) 


szAnsl (nFunctions) Dword Dword Dword 
ntoskrnl.exe 43 001841D8 0 001841C4 
msrpc.sys 5 00184F98 001841B8 


CLFS.SYS 00184FC8 001841AC 


ksecdd,sys 0018>0F8 001841A0 


18 -23 ntfs. sys 的 依赖 模块 


在 NTFS 文件 系统 中 ,DriverEntry 依然 是 驱动 的 人 口 图 数 ,但 ntfs. sys 没有 AddDevice 略 
数 。 在 DriverEntry 中 主要 完成 以 下 工作 : 

> 创建 控制 设备 对 象 Ntfs ,对 象 类 型 为 FILE_DEVICE_DISK_FILE_SYSTEM ,这 与 FAT32 

创建 的 设备 对 象 的 类 型 是 一 致 的 ,并 将 设备 对 象 的 扩展 部 分 定义 为 NTFS_GLOBAL_ 
DATA 数据 结构 。 
> 初始 化 驱动 对 象 的 主 功 能 函数 ,具体 如 下 : 
e [IRP MJ CREATE.NisCreate: 
e。 IRP_MJ_CLOSE :NtfsClose; 
e。 IRP_MJ_READ.:NtfsRead: 
® IRP_ MJ _ WRITE.:NtfsWrite; 
e。 IRP_MJ_ FILE_SYSTEM_CONTROL.:NtfsFileSystemControl; 
e。 IRP_MJ_DIRECTORY_CONTROL :NtfsDirectoryControl ; 
® [ITRP_MJ_OUFRY_INFORMATION :NtfsWOuerylnformation ; 
e LIRP_MJ_OUFERY_VOLUME_INFORMATION :NtfsQuery Volumelnformation; 
® IRP_MJ_ SET_VOLUME_ INFORMATION :NtfsSetVolumeInformation 。 

> 通过 IoRegisterFileSystem 方法 回 全 局 列表 注册 NTFS 文件 系统 。 

当 没 有 任何 卷 采用 NTFS 文件 系统 时 ,Windows 并 没有 加 载 NTFS 文件 系统 驱动 ,此 时 称 
NTFS 未 激活 。 当 有 一 个 新 的 使 用 了 NTFS 文件 的 卷 被 加 载 时 ,NTFS 文件 系统 驱动 也 就 被 加 
载 了 ,此 时 称 NTFS 被 激活 。 

图 18 -24 是 NTFS 驱动 的 功能 函数 和 快速 处 理 函 数 , 可 以 看 出 ,大 部 分 函数 都 位 于 ntfs. 
sys 模块 中 ,而 诸如 IRP_MJ_CREATE_NAMED_PIPE .IRP_MJ_CREATE_MAILSLOT 等 功能 函 
数 则 位 于 内 核 模块 ntoskrnl. sys 中 ,这 说 明 包 括 命名 管道 .邮件 模 等 设备 的 蚀 建 已 经 从 文件 
系统 中 剥离 了 出 来 而 被 归 为 了 内 核 的 一 部 分 。 


seasas 


| I8042prt | 限 标 


ee M]_CREATE 
(Ntfs)IRP_M]_CREATE_NAMED _ PIPE 
(Ntfs}IRP_M]_CLOSE 
(Ntfs)IRP_M]_READ 

(Ntfs)IRP_M]_ WRITE 

(NtfsJIRP M] QUERY INFORMATION 
(Ntfs)IRP_M]_SET_INFORMATION 
(Ntfs)IRP_M]_QUERY EA 
(Ntfs)IRP_M]_SET_EA 
(Ntfs)IRP_M]_FLUSH_BUFFERS 


(Ntfs)IRP_M]_QUERY YOLUME_INFORMATION 
(Ntfs)IRP_M]_SET_VOLUME_INFORMATION 


(Ntfs)IRP_M]_DIRECTORY_CONTROL 
(Ntfs)IRP_M]_FILE_SYSTEM_CONTROL 
(Ntfs)IRP_M]_DEVICE_CONTROL 


(Ntfs)IRP _M] INTERNAL DEVICE_CONTROL 


(Ntfs}IRP_M] SHUTOOWN 
(Ntfs}IRP_M] LOCK_CONTROL 
(Ntfs)IRP_M]_CLEANUP 
(Nts)IRP MJ] CREATE MAILSLOT 
(NtfsiIRP _ NM] QUERY_ SECURITY 
(MtfsjIRP M]J_SET _ SECURITY 
(Ntfs)IRP_M] POWER 
(Ntfs)IRP M]J SYSTEM CONTROL 
(Ntfs)IRP_M] DEVICE_CHANGE 
(Ntfs)IRP_MJ_QUERY_QUOTA 
(Ntfs)IRP _M] SET_QUOTA 
(Ntfs}/IRP_M] _ FNP_POWER 
(Ntfs)FastIocheckIfPossible 
(Ntfs)FastioRead 
(NtfsjFastoWrite 
(Ntfs\FastIoQueryBasicInfo 
(Ntfs\Fastioduery3StandardIinfo 
(Ntfs)FastroLodk 
(Ntfs)FastioUnlocksingle 


Y 
(NtfsiheleaseFileForNtCreateSection 
(Ntfs)FastIoQueryNetworkOpenInfo 
(Ntfs\AcquireForModWrite 
(Ntfs/MdRead 
(Ntfs}MdlReadComplete 
(Ntfs)PrepareMdlWrite 
(Ntfs)MdiVWriteComplate 
(Ntfs)FastIoQueryOpen 
(Ntfs)ReleaseForModWrite 
(Ntfs)AcquireForCcFlush 
(Ntfs)RealesaseForCeFlush 


| Partmgr | Disk 


DxFFFFF8800 12C1370 
DOxFFFFFS800046BBEDO 
DxFFFFFS8001280680 
DxFFFFFSS0012272A0 
0xFFFFFS8001232930 
OxFFFFFS80012A6FE0 
0xFFFFF88001227E%W0 
OxFFFFFSS0012A6FEO 
DxFFFFFSS0012A6FE0 
DxFFFFFS80012A7380 
OxFFFFFS80012A7380 
OxFFFFF88001282A0 
DxFFFFFS8001293CDF0 
DxFFFFF800046BBEDO 
DxFFFFFS8001336870 
DxFFFFFSS00125AAFO 
OxFFFFF880012C640 
0OxFFFFFS00046BEED0 
OxFFFFFS80012A7380 
0xFFFFF880012A7380 
OxFFFFF800046BBEDO 
0OxFFFFFSO000466BEDO 
OxFFFFF800046BBEDD 
DxFFFFFS80012A6FED 
DxFFFFFS80012A6FED 
OxFFFFFS80012EC280 
DxFFFFF88001349030 
DxFFFFFSS00128FC0 
OxFFFFFSS001285CE0 
DxFFFFF880012A77A0 
DxFFFFFSS0012A7010 
DOxFFFFFSS0012960D0 
OxFFFFF88001295EA0 
DxFFFFFS800134A050 
OxFFFFF88001349D0F0 
OxFFFFFS8001227E10 
DxFFFFFSS001235910 
OxFFFFFSS0012972D0 
DxFFFFF8000466B0DAC 
DxFFFFFSS001297480 
DOxFFFFFS80004962128 
OxFFFFF880012A 1250 
OxFFFFFS80012353980 
OxFFFFF880012375A0 
OxFFFFF880012375F0 


0xFFFFF8800 l12C1370 
DOxFFFFFS000466BED0 
0xFFFFF8800126D680 
OxFFFFF880012272A0 
D0xFFFFF88001232930 
0xFFFFFS80012A6FE0 
DxFFFFF88001227E30 
DxFFFFFSS0012A6FE0 
DxFFFFFS80012A6FED 


COxFFFFFSS00 12A7380 
OxFFFFF880012A7380 
OxFFFFF88001282A0 
DxFFFFF8800129CDF0 
0xFFFFF80004688EDO 
0xFFFFF88001398870 
OxFFFFF8800125AAFO0 
DxFFFFF880012C640 
0OxFFFFFS0004666ED0 
DxFFFFF880012A7380 
DxFPFFFF880012A7380 
DOxFFFFFS000466BEDO 
0xFFFFFS0004666ED0 
0xFFFFFS000466BEDO 
OxFFFFFS880012A6FED 
OxFFFFF880012A6FED 
DxFFFFF880012EC280 
0OxFFFFFSS001349030 
0OxFFFFFSS001BoFC0 
0xFFFFFS8001285CE0 
DxFFFFF880012A77AD 
DxFFFFFS80012A7010 
0OxFFFFFSS0012960D0 
OxPFFFF88001295EA0 
DxFFFFF8800134A050 
OxFFFFF880013490F0 
OxFFFFF88001227E10 
0OxFFFFFSS001296440 
0xFFFFFSS001235910 
0xFFFFFS8001297200 
DxFFFFF800046800AC 
OxFFFFFS8001297460 
OxFFFFF80004962128 
OxPFFFF880012A 1250 
OxwFFFFF88001235960 
OxFFFFF880012375A0 
0xFFFFFS80012375F0 


Atapi | Acpi | Scsi 月 核 沟 子 Object 钧 子 系统 中 电表 


C: rr SYS 
C:\Windows\lsystem32\ntosknl,ewe 

C:\Windows'\System32'\Drivers'\Ntfs,sys 
C:\Windows'\System32\Drivers'\Mtfs,sys 
CVWWindows\System32\Drivers\Ntfs,.sys 
C:\Windows\System32\Drivers\Ntfs.sys 
C:\Windows\System32\0rivers\Ntfs.sys 
C:\Windows\System32\Drivers\Ntfs,sys 
C:\WindowslSystem32\0rivers\Ntfs.sys 
C:\Windows\System32\0rivers\Ntfs.sys 
C:\Windows\system32\Drivers'\Ntfs.sys 
C:\Windows\system32\Drivers'\Ntfs.sys 
C:\Windows\System32\0rivers\Ntfs.sys 
C:\Windows'\System32\0rivers'\Mtfs,sys 
C:\Windows'\System32\0rivers'\Ntfs, sys 
Ci\Windows\system32ntosinl.exe 

C:\Windows\Ssystem32\Drivers\Ntfs.sys 
C:\Windows\System32\0rivers\Ntfs.sys 
CWWindows\system32\Drivers\Ntfs.sys 
C:\Windows\system32\ntoskml.exe 

C:\Windows\system32\0rivers\Ntfs.sys 
C:\Windows\system32\Drivers'\Ntfs.sys 
C:\Windows\system32\ntosknl,exe 

C:\Windows\system32ntosknl.exe 

C:\Windows\system32\ntoskrnl.exe 

C:\Windows\Ssystem32\Drivers'\Mtfs, sys 
C:\Windows\System32\Drivers\Ntfs,sys 
C:\Windows\System32\0rivers\Ntfs.sys 
C:\Windows\s ystem32\Drivers\Ntfs.sys 
C:\Windows\system32\Drivers\Ntfs.sys 
C:\Windows\System32\0rivers\Ntfs.sys 
C:\Windows\system32\Drivers'\Ntfs.sys 
C:\Windows\system32\Drivers'\Ntifs.sys 
C:Windows\System32\Drivers'\Ntfs.sys 
C:\Windows'\System32\Drivers'\Ntfs.sys 
C:\Windows'\System32'\Drivers\Ntfs.sys 


C:\Windows\lsystem32ntoskml.exwe 

C:\Windows\system32\Drivers'\Ntfs.sys 
C:\Windows\system32\ntoskmnl.exe 

C:\Windows\system32\Drivers'\Ntfs.sys 
C:\Windows'\System32'\Drivers\Ntfs.sys 
C:\Windows'\System32\Drivers'\Mtfs.sys 
C:\Windows\System32\Drivers\Ntfs,sys 


图 18 一 24 NTEFS 驱动 各 功能 函数 和 快速 处 理 函 数 


4. 文件 的 读 取 

下 面 我 们 以 一 个 实例 来 讲解 NTFS 读 取 文件 的 过 程 。 假 设 文 件 的 路 径 仍 然 是 “C:\ 
Windows \System32\Notepad. exe”。 要 访问 这 个 NTFS 文件 的 数据 ,首先 应 在 $MFT 文件 中 找 
到 与 该 路 径 对 应 的 文件 记录 ,然后 在 找到 的 文件 记录 中 查找 $Data 属性 。 硅 $Data 属性 驻 
留 , 则 和 直接 旋 出 其 数据 ;者 $Data 属性 非 驻 留 , 则 到 Runlist 指出 的 位 置 谈 出 文件 的 数据 。 文 
件 索引 的 目标 便 是 根据 文件 名 找到 该 文件 的 文件 记录 在 $MFT 中 的 位 置 。 每 个 目录 B + 树 
节点 的 每 个 Key 至 少 包含 两 条 信息 :文件 名 和 该 文件 的 文件 记录 在 $MFT 文件 中 的 序号 (第 
几 条 文件 记录 ) 。 具 体 步 又 如 下 : 

(1) 首先 在 $MFT 文件 中 读 取 第 $ 条 FileRecord ,该 FileRecord 就 是 $Boot 文件 的 文件 
记录 。 $Boot 文件 中 有 $MFT 文件 的 位 置 ,Windows 局 动 时 已 经 被 读 取 到 内 存 中 了 。 

(2) 系统 解析 该 文件 记录 时 发 现 该 记录 为 目录 文件 的 记录 , 便 读 取 
$INDEX_ALLOCATION 属性 的 Runlist 所 指 区 域 中 的 数据 ,这 些 数据 构成 一 棵 B+ 树 。 

(3) 裔 历 这 棵 B+ 树 , 查找 包含 文件 名 “Windows ”的 Key, 找 到 后 从 该 Key 中 该 取 
“Windows ”文件 的 文件 记录 在 $MFT 文件 中 的 序号 n。 
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(4) 回 到 $MFT 文件 中 旋 取 第 n 条 FileRecord ,解析 后 发 现 *“Windows ”为 目录 , 便 读 取 
$INDEX_ALLOCATION 属性 的 Runlist 所 指 区 域 中 的 数据 ,这 些 数据 构成 一 棵 B + 树 。 

(5) 通 历 这 棵 B + 树 , 查 找 包 含 文件 名 “System32 ”的 Key, 找到 后 从 该 Key 中 读 取 
“System32 ”文件 的 文件 记录 在 $MFT 文件 中 的 序号 m。 

(6) 回 到 $MFT 文件 中 读 取 第 m 条 FileRecord ,解析 后 发 现 *“ System327” 依然 为 目录 , 便 
读 取 $INDEX_ALLOCATION 属性 的 Runlist 所 指 区 域 中 的 数据 ,这 些 数据 又 构成 一 棵 B 
+ 树 。 

(7) 这 有 历 这 棵 B+ 树 ,查找 包含 文件 名 “Notepad. exe” 的 Key ,找到 后 从 该 Key 中 读 取 
“ Notepad. exe” 文件 的 文件 记录 在 $MFT 文件 中 的 序号 i。 

(8) 回 到 $MFT 文件 中 读 取 第 i 条 FileRecord ,解析 后 发 现 * Notepad. exe” 为 一 般 文 件 ， 
便 计 取 $Data 属性 的 runlist 所 指 回 区 域 中 的 数据 。 

经 过 上 述 步 又 , 谈 取 操作 便 完 成 了 。 


18.4 ”ReFS 文件 系统 


ReFS( Resilient File System ,弹性 文件 系统 ) 是 在 Windows Server 2012/Windows 8 中 新 引 
和信 的 一 种 文件 系统 ,目前 只 能 应 用 于 存储 数据 ,还 不 能 引导 系统 ,并 且 在 移动 媒介 上 也 无 法 
使 用 。 

相 较 于 NTFS 文件 系统 ,ReFS 文件 系统 提升 了 更 多 的 可 靠 性 ,特别 是 对 于 老化 的 磁盘 或 
者 是 当 机 需 发 生 突然 断 电 的 时 候 。ReFS 的 可 徘 性 来 日 底层 的 变化 ,比如 文件 元 数据 的 存储 
和 更 新 。ReFS 兼容 Storage Spaces 路 区 卷 技术 , 当 磁盘 出 现 谈 取 和 写 人 失败 时 ,ReFS 会 进行 
系统 校 验 ,可 以 检测 到 这 些 错 误 并 进行 正确 的 文件 拷贝 。 

ReFS 类 似 NTFS 和 RAIDS 的 组 合 , 因 日 市 奇偶 校 验 而 会 损失 存储 空间 ,所 以 ReFS 会 占 
用 硬盘 的 大 部 分 空间 来 保证 数据 完整 性 ,但 其 可 徘 性 日 然 要 比 NTFS 高 很 多 。 

ReFS 文件 系统 的 关键 功能 如 下 : 

> 提供 带 有 校 验 和 的 完整 性 元 数据 。 

> 提供 可 选用 户 数据 完整 性 的 完整 性 流 。 

> 通过 写 和 人 时 分 配 事务 模型 实现 可 徘 的 磁盘 更 新 (也 称 为 写 时 复制 ) 。 

> 文 持 超大 规模 的 卷 .文件 和 目录 。 

> 存储 池 和 虚拟 化 特性 使 得 文件 系统 可 建立 并 易于 管理 。 

> 通过 数据 条 审 化 技术 提高 性 能 ( 审 宽 可 管理 ) 并 通过 备份 提高 容错 性 。 

> 通过 磁盘 扫描 防止 潜在 的 磁盘 错误 。 

> 侍 助 “数据 打捞 ”实现 损坏 还 原 , 以 便 在 任何 情况 下 尽 可 能 提高 卷 的 可 用 性 。 

> 路 计算 机 共享 存储 池 ,以 提供 额外 的 容错 性 和 负载 平衡 。 

此 外 ,ReFS 还 从 NTFS 继承 了 某 些 功能 和 语义 ,包括 BitLocker 加 密 、 用 于 安全 的 访问 控 
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制 列表 、USN 日 志 、 更 改 通知 .符号 链接 .交接 点 装 入 点 、 重 解析 点 、 卷 快照 文件 ID 和 操作 
锁 等 。 当 然 ,客户 端 只 要 使 用 任何 操作 系统 中 可 访问 现 有 NTFS 卷 的 文件 访问 API 就 可 以 访 
问 以 ReFS 格式 存储 的 数据 。 


18.5 文件 系统 识别 希 


文件 系统 识别 硕 是 个 内 核 态 的 驱动 ,其 
功能 就 是 检查 物理 存储 介质 ,如 采 能 识别 则 | 
加 载 相应 的 文件 系统 , 正 因为 如 此 才 会 被 称 DE ISO ne 
为 "文件 系统 识别 硕 " 。 它 的 引入 使 得 系统 “DEY \FileSystem\UdfsDiskRecognizer 
几乎 从 不 需要 预先 加 载 所 有 的 文件 系统 豫 。 | [DER 
劲 程序 ,实现 了 只 用 一 个 小 驱动 就 可 以 元 成 图 18 -25 文件 系统 识别 器 生成 的 设备 对 象 
几 百 千 字 节 其 至 若干 兆 字 节 内 存 才 能 完成 
的 工作 。 当 文件 系统 加 载 完成 后 ,文件 系统 识别 硕 也 束 完 成 了 使 命 ,可 以 全 载 了 了 。Windows 
中 文件 系统 识别 器 的 承载 映像 是 fs_rec. sys 模块 ,其 生成 的 设备 对 象 如 网 18 一 25 所 示 。 

在 实际 环境 中 ,几乎 所 有 物理 存储 介质 的 文件 系统 都 利用 了 文件 系统 识别 右 。 其 对 应 
的 物理 存储 介质 没有 被 访问 , 则 其 文件 系统 也 不 会 被 真正 加 载 。 当 新 的 物理 存储 介质 进入 
系统 后 ,0 管理 硕 会 依次 答 试 各 种 文件 系统 进行 卷 识别 ,如 宁 识 别 成 功 , 则 立刻 加 载 真 正 
的 文件 系统 张 动 ,而 对 应 的 文件 系统 识别 硕 会 被 外 载 。 

文件 系统 识别 需 是 通过 磁盘 上 的 标识 符 来 识别 文件 系统 的 。 标 识 符 就 是 一 串 序 列 号 或 
者 字符 串 ,可 能 存在 于 分 区 表 中 ,也 可 能 存在 于 其 他 地 方 , 如 表 18 -4 所 示 。 


表 18-4 常见 的 文件 系统 标识 符 


DRV ‘\FileSystem\Fs_Rec 
; DEY \FileSystem\ExFatRecognizer 


系统 名 文件 系统 标识 符 


文件 3 


De9 或 0xeb 或 049 

文件 系统 识别 需 实 际 上 就 是 一 个 只 处 理 挂 载 请 求 的 文件 系统 驱动 程序 。 因 此 , 它 基 于 
相应 文件 系统 类 型 创建 设备 对 象 , 并 向 IO 管理 器 注册 使 用 的 文件 系统 ,然后 等 待 被 调用 去 
挂 载 卷 。 如 果 识 别 需 确认 了 卷 属于 它 的 文件 系统 则 返回 状态 码 STATUS_FS_DRIVER _ 
REQUIRED ,而 不 是 接受 这 个 挂 载 请 求 。 接 下 来 VO 管理 需 调 用 识别 需 , 使 其 加 载 整个 文件 
系统 驱动 程序 ,具体 做 法 是 发 送 主 功能 码 为 IRP_MJ_FILE_SYSTEM_CONTROL . 副 功 能 码 为 
IRP_MN_LOAD_FILE_SYSTEM 的 IRP。 

总 之 ,文件 系统 识别 器 虽然 是 一 个 简单 的 驱动 程序 ,但 它 却 是 必需 的 。 它 可 以 使 你 的 驱 
动 “ 按 需 司 动 ” ,以 最 小 化 内 存 需求 。 文 件 系统 识别 需 就 是 文件 系统 驱动 的 “小 蔡 号 ”。 
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18.6 文件 系统 过 滤 框 架 FltMegr 


Windows 文件 系统 框架 提供 了 两 类 过 小 驱动 模型 :文件 系统 过 滤 驱 动 和 文件 系统 小 过 
滤 驱 动 。 前 者 是 较为 通用 的 设备 对 象 堆 装 方式 的 过 滤 模 型 ;后 者 则 依托 于 Windows FltMgr 
驱动 框 染 ,并 且 不 宕 要 处 理 设备 对 象 堆 苹 和 挂 钧 ,也 不 会 生成 设备 对 象 ,使 开发 者 专注 于 过 
小 业务 本 号 ,因此 具有 极 大 的 便捷 性 和 稳定 性 。 

1. 文件 系统 过 滤 驱 动 

这 种 类 型 的 过 滤 驱 动 利 用 于 病毒 检测 .文件 加 密 .文件 分 析 文件 压缩 等 场景 ,并 且 使 用 
的 是 Windows 设备 驱动 框架 ,人 口 图 数 也 是 DriverEntry ,但 没有 AddDevice 方法 ,也 就 是 说 这 
类 过 滤 驱 动 是 NT 式 驱 动 , 也 不 处 理 即 插 即 用 和 电源 管理 的 命令 。 这 种 驱动 的 过 滤 目 标 对 象 
是 IRP，。 

这 类 驱动 可 以 利用 IO 管理 上 各 的 loRegisterF sRegistrationChange 方法 来 接收 文件 系统 的 
变化 。 这 个 方法 将 接收 方 的 回调 函数 指针 注册 到 LO 管理 硕 , 当 注 册 成 功 后 接收 方 会 接收 
到 系统 中 现 有 文件 系统 的 信息 回调 ,每 一 种 文件 系统 均 有 一 次 回调 ,以 使 调用 方 知 道 目 前 系 
统 中 有 多 少 文件 系统 。 

从 图 18 -26 看 出 ,过 滤 驱 动 加 入 后 ,在 文件 系统 设备 栈 的 顶端 (FltMgr 设备 对 象 的 上 
方 ) 增 加 了 一 个 新 的 设备 类 型 ,这 与 普通 的 基于 设备 对 象 堆 琶 的 过 滤 方 式 如 出 一 格 。 流 经 
LO 管理 融和 FltMgr 设备 对 象 的 IRP 会 经 过 这 个 过 滤 设 备 对 象 以便 截 取 过 滤 。 但 是 这 种 方 
式 只 能 将 过 滤 设 备 堆 著 到 设备 栈 的 顶端, 过 滤 的 位 置 是 受 限 的 。 

IO 请 求 


UV/O 请 求 


Fr TEH Bm 
4 
区 文件 系 综 设备 楼 文件 系统 充 备 酚 
~ : fllespy 设 备 对 象 : 
FltMgr 设 备 对 向 ’ 


FltMegr 议 备 对 稼 


Ntfs 议 备 对 午 


Ntfs 议 香 对 象 


二 曾 下 下 是 一 一 一 一 二 二 二 一 一 一 二 二 二 二 一 一 上 一 一 一 二 一 一 二 二 一 一 一 :一 二 一 一 < 


过 滤 驱 动 加 入 前 


过 滤 驱 动 加 入 后 
图 18 -26 ”过滤 驱 动 加 入 系统 后 的 设备 栈 
我 们 要 注意 的 是 ,文件 系统 又 不 同 于 普通 的 设备 驱动 。 因 为 文件 系统 一 般 创 建 两 个 设 
备 对 象 :一 个 是 CDO, 即 控制 设备 对 象 ,这 一 般 是 用 于 挂 和 人 系统 列表 的 命名 对 和 象 ; 男 一 个 是 文 
件 系 统 卷 对 象 ,一 般 每 个 卷 生 成 一 个 卷 设备 对 象 , 堆 芭 在 卷 管理 问 创 建 的 卷 设 备 之 上 , 旦 是 
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未 命名 的 。 所 有 流 经 文件 系统 的 IRP 都 是 针对 卷 设备 对 象 而 言 的 ,虽然 在 大 多 数 情况 下 卷 
设备 对 象 与 CDO 共享 驱动 的 功能 函数 ,但 CDO 承担 的 任务 非常 少 ,在 过 滤 操 作 中 基本 可 以 
忽略 不 计 。 

堆 释 过 滤 是 比较 常规 的 做 法 ,也 是 比较 兴 师 动 众 的 做 法 。 

2. 文件 系统 小 过 滤 了 驱动 

文件 系统 小 过 滤 驱 动 依附 于 FltMegr 驱动 框架 。FltMegr 是 Windows 文件 系统 的 IO 过 滤 
框架 ,允许 文件 系统 小 驱动 程序 向 本 框架 注册 需要 过 滤 拦 截 的 WO 操作 。 这 些 拦截 的 目标 
既 包 括 IRP ,还 包括 快速 IO 函数 ,也 包括 回调 操作 。 

当 系 统 中 没有 小 过 滤 驱 动 时 ,FltMgr 框架 是 透明 的 ,并 不 局 用 。 当 有 小 过 滤 驱 动 注册 到 
FltMgr 框架 时 框架 才 会 局 动 。 但 小 过 滤 驱 动 并 不 会 生成 设备 对 和 象 堆 盖 在 文件 系统 设备 栈 
中 ,这些 都 由 框架 完成 和 实现 ,小 过 滤 驱 动 不 需 要 关注 。 

FliMgr 了 驱动 框架 允许 小 过 滤 驱 动 注册 “前 序 操作 "和 “尾声 操作 ”, 分 别 对 应 1/O 操作 之 
前 的 回调 图 数 和 LO 操作 之 后 的 回调 函数 。 

FltMgr 驱动 框架 的 承载 映像 文件 是 fiMgr. sys, 很 显然 这 也 是 个 驱动 模块 ,也 有 入 口 限 数 
DriverEntry ,其 导出 图 数 如 图 18 一 27 所 示 。 可 以 看 出 ,fltMgr. sys 导出 了 诸如 FltAttachVolume 
这 样 的 卷 挂 载 接口 图 数 以 供 调用 。 


Function RVA Name Ordinal | Name RVA Name 
: 0003D66C 0003DD3A 0003D9E4 0003E0C4 
Ee Word | Bd 和 szAnsl 
0000AE70 00041A8B FltAllocatePoolAlignedWithTag 
0000B4AD 00041AA9 FltApplyPrionityInfoThread 


‘00037020 00l 0004inc 


Do036FFO 00041AD4 FitAttachVolumeAtAltitude 


0002AECO0 、 00041AEE FltBuildDefaultSecurityDescriptor 


00039D30 00041B10 FltCancelFileOpen 


0000AE10 00041B22 FltCancello 

00029F50 [ 00041B2E FltCancellableWaitForMultipleQ,,, 
00029F90 00041B53 FltCancellableWaitForSingleOb)... 
0000AD20 00041B75 FltCbdqDisable 


FltMgr 驱动 框架 允许 注册 多 个 小 过 滤 驱 动 程序 ,也 允许 对 同一 种 IO 操作 注册 多 个 过 
小 驱动 。 在 一 般 性 过 滤 框 架 中 ,过 滤 驱 动 的 设备 对 象 总 是 堆 全 在 设备 栈 的 项 端 , 而 且 后 加 载 
的 总 是 堆 秋 在 先 加 载 的 驱动 设备 之 上 ,因而 IRP/ 快 速 调用 的 下 行 方向 总 是 后 注册 的 先 被 过 
滤 ,上行 方 问 总 是 后 被 过 滤 , 限 制 了 过 滤 拦 截 的 灵活 性 。 但 在 FltMgr 框架 中 , FltMgr 允许 由 
小 过 滤 驱 动 日 已 指定 位 置 和 过 滤 顺 序 ; 通 过 高 位 值 来 决定 小 过 滤 驱 动 在 驱动 栈 中 的 层次 , 值 
越 大 层次 位 置 越 高 ; 值 越 小 层次 位 置 就 越 低 , 这 样 束 非 第 方便 地 使 能 了 过 滤 的 层次 指定 。 

图 18 一 28 展示 了 一 个 指定 了 高 位 值 的 小 过 滤 驱 动 的 例子 。 我 们 注册 了 4 个 小 过 小 驱 
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动 ,其 中 A、B 两 个 驱动 更 接近 LO 管理 豆 , 层 次 位 置 更 高 ;CD 两 个 驱动 更 接近 文件 系统 驱 
动 ,层次 位 置 更 低 ( 可 以 参考 它们 的 高 位 但) 。 这 些小 过 滤 驱 动 有 的 负责 防 病毒 ,有 的 负责 数 
据 加 密 ,它们 都 设 有 功能 上 的 耦合 。 


文件 IO 请 求 用 户 模式 
内 核 模 式 


IO 管理 器 


ee 小 过 小 驱动 程 夺 A 
1 文件 系统 设备 栈 FsFilter 护 病毒 

| | = ,本人 汪 已 站 
这 并 人 竹 | 理 弹 (高 位 置 :325000) 
ni 1(FltN\er) , 人 

| 小 过 小 驱动 程序 B 
. FsFilter 复 制 


(高 位 置 :305000) 


(EsPilter HSM) " 
(无 高 位 值 ) 


小 过 滤 驱 动 程序 C 
FsFilter 压 纳 

过 (高 位 置 :165000) 

过 小 管理 器 

| 由 0(FlItMgr) 


| 小 过 滤 驱 动 程序 D 
FsFilterj 加 笃 : 
(高 位 置 :145000) 


文件 系统 | 
驱动 程 邦 (Ntfs) ' 


图 18 一 28 ”FltMegr 框架 下 的 小 过 滤 驱 动 


FsFilter HSM 是 个 传统 的 过 滤 驱 动 程序 ,包括 了 执行 分 层 人 存储 管理 的 靖 选 希 驱 动 程序 。 
虽然 没有 和 定义 高 位 值 ,但 实际 上 Windows 为 其 定义 的 高 位 值 恰好 在 图 18 一 28 的 A.B 和 C、D 
之 间 。 对 于 文件 系统 过 滤器 而 言 ,HSM 之 上 的 称 为 过 滤 管 理 器 帧 1,HSM 之 下 的 称 为 过 滤 管 
理 融 帧 0。 

从 图 18 -28 还 可 以 看 出 ,小 过 滤 驱 动 并 不 是 通过 设备 堆 登 的 方式 过 滤 LO 操作 的 , 它 
日 己 也 不 会 产生 设备 对 象 , 它 是 包 正 在 FltMgr 框架 内 部 的 ,FltMgr 本 吴 只 有 一 个 设备 对 象 。 

小 过 滤 驱 动 通过 FltMgr 模块 导出 的 FltRegisterFilter 方法 将 日 身 注册 到 全 局 小 过 滤 驱 动 
链表 中 。 注 册 时 ,小 过 滤 驱 动 提 供 一 组 回调 孔 数 指针 , 当 发 生 感 兴趣 的 VO 操作 事件 时 ， 
FltMgr 框架 可 以 对 相应 的 子 数 进行 回调 。 小 过 滤 驱 动 通过 FltMgr 模块 导出 的 
FltStartFiltering 方法 通知 FltMgr 框架 自己 已 经 完成 了 各 项 准备 工作 ,可 以 开始 过 滤 拦 截 操作 
了 。 小 过 小 驱动 一 般 通 过 入 口 函数 初始 化 一 些 参数 , 人 然后 调用 FltRegisterFilter 方法 进行 注 
册 , 最 后 调用 FltStartFiltering 方法 通知 开始 过 滤 。 

绽 上 所 述 ,文件 系统 小 过 滤 驱 动 有 如 下 优势 : 

> 对 过 滤 节 点 的 过 滤 顺 序 有 更 好 的 控制 ; 

> FltMgr 框架 支持 小 过 滤 驱 动 在 运行 时 乞 载 ，; 

> 可 以 只 过 滤 选 定 的 IO 操作 
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> 不 需要 设备 堆 著 ,不 增加 设备 栈 深 度 ; 
> 蝎 友 好 的 实现 方式 和 更 低 的 开发 门槛 ; 
> 扩展 性 更 好 。 


本 章 小 结 


本 章 介 绍 了 Windows 文件 系统 。 在 介绍 文件 系统 之 前 必须 首先 铺垫 磁盘 的 相关 技术 利 
概念 ,因为 文件 系统 的 目标 操作 对 象 是 磁盘 上 的 扇 区 。 

Windows 系统 中 是 按照 文件 系统 、 卷 .磁盘 三 层 架 构 来 构筑 存储 驱动 协议 栈 的 ,其 中 卷 
是 连接 文件 系统 和 磁盘 驱动 的 中 介 , 因 此 卷 设备 对 象 是 需要 重点 介绍 的 内 容 。 在 此 基础 上 
也 介绍 了 FAT32 .NTFS 等 主流 文件 系统 。 

Windows 也 支持 对 存储 LO 进行 过 滤 ,FltMgr 就 是 一 种 新 的 文件 系统 过 滤 框 架 。 
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WDDM( Windows Display Driver Model, Windows 显示 驱动 模型 ) 是 微软 新 一 代 图 形 驱 动 
模型 框架 ,主要 应 用 于 Windows Vista 及 以 上 的 版 本 ,新 版 本 的 显卡 驱动 都 需要 遵守 WDDM 
框架 。WDDM 是 符合 WDM 规范 的 小 端口 驱动 ,因而 也 具有 电源 管理 和 即 插 即 用 功能 。 

不 同 于 Windows XP 版 本 中 的 XPDM( Windows XP Display Driver Model, Windows XP 二 
示 驱 动 模型 ) ,WDDM 是 对 XPDM 的 改进 ,使 用 了 3D 加 速 技术 ,可 以 文 持 同 时 运行 多 个 CPU 
密集 型 应 用 ,而 XPDM 使 用 的 是 2D 的 GDI( Graphics Device Interface ,图 形 设备 接口 ) 或 GDI 
+ (GDI 扩 展 , 提 供 了 诸如 位 图 操作 ,画笔 \ 抗 锯齿 和 复杂 的 Primitive 演 染 中 不 同 像素 深度 格 
式 的 支持 ) ,因此 WDDM 具有 更 好 的 性 能 和 演 染 效果 。 在 WDDM 框架 下 ,所 有 的 应 用 程序 
和 后 成 的 显示 画面 都 会 在 介面 窗口 管 理 兹 ( Desktop Windows Manager, DWM ) 内 合成 为 单一 的 
输出 画面 ,并 由 此 获得 了 更 好 的 显示 效果 。 

WDDM 框 织 大 致 可 分 成 两 个 组 件 :内 核 模 式 驱 动 (KMD ) 和 用 户 模式 驱动 (UMD ) 。 
WDDM 将 大 部 分 功能 代码 ( 主要 是 密集 计算 任务 代码 ) 从 内 核 态 移出 到 用 户 态 ,其 中 泻 染 显 
示 相 关 的 功能 代码 只 在 用 户 态 下 运行 ,从 而 提高 了 系统 稳定 性 。 


19.1 WDDM 框架 基础 库 


WDDM 框架 包含 了 三 个 Windows 基础 图 形 库 .GDI、DirectX 和 OpenGL。 

1. GDI 

GDI( Graphics Device Interface ,图 形 设备 接口 ) 是 供 普通 用 户 使 用 的 ,用 于 绝 大 多 数 普通 
的 二 维 图 形 界面 的 显示 。GDI 通过 调用 win32k. sys 模块 的 支持 困 数 来 模拟 画图 。win32k. 
sys 本 质 上 是 一 个 内 核 态 的 动态 库 , 其 并 不 是 通过 调用 IoCallDrivery 传递 IRP ,而 是 通过 导出 名 
称 带 有 “Eng” 前 级 的 接口 也 数 供 GDI/GDI + 调用 的 方式 来 传递 请 求 , 如 图 19 一 1 所 示 。 


Function RVA Name Ordinal | Name RVA Name 


Ordinal 


N/A O02FBA74 O02FCOFE O02FBEAC O02FCOO7 


[nFunctians) Dawerd Weord Daward szAnsl 


00198C8C 0036 0030FD9E EngDeleteSemaphore 


O01A0DSS 0037 0030FDB1 EngDeleteSurface 


O01C9168 0038 0030FDC2 EngDeleteWna 


O01994FC 0039 0030FDCF EngDeviceloContrel 


001CB1A0 
O019AEFS 
O01CB348 
O01A9E24 
001A117C 
O01CB3F8 


图 19-1 


0030FDE2 
O030FDF1 
0030FDFC 
0030FE09 
0030FE15 
0030FEa5 


EngDitherColor 
EngDxloct 
EngEnumForms 
EngEqualRagn 
EngEraseSurface 
EngFileloContral 


win32k. sys 中 用 于 绘图 的 接口 | 
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GDI 应 用 程序 的 图 形 界 面 先 经 过 CPU 处 理 后 输出 到 主 存 上 ,再 从 主 存 传输 到 显卡 驱动 分 
配 的 GDI 显存 上 (也 是 从 主 存 的 一 块 区 域 映 射 到 显存 中 ,是 典型 的 一块 内 存 两 次 映射 ”, 因 而 
不 采用 PCI-E 总 线 传输 ,效率 较 噩 ) ,最 后 由 果 面 窗口 管理 副将 画面 合成 输出 到 显示 各 上 。 

图 19 -2 显示 了 GDI 应 用 程序 的 各 种 窗口 句柄 对 象 。 


JisuPdf.exe CANprogram Files (x86).. X270-PO\tanzhe 
devicetree,exe CUsers\ZNVN\Deskto... X270-PCO\tanzhe 
taskhost.exe CN\Windows\system32.. X270-PO\tanzhe 


Handle / Object Type Kernel Address Extended Information Detect Counter Detected On 

呈 0xle0al2cc Font 0Oxfffff900c2c21d,.. 2019/7/6 22:51:04 
吻 0x49043100 Region Oxfffff900c432c270 a019/ /6 22:51:04 
全 0x4a1l03flb Brush 0Oxfffff900c46c7470 2019/ 22ol0d4 
性 0x6e0az2acf Font Oxfffff900c23caa.., 2019/7/6 22:51:04 
起 0x80053f2d Bitmap Oxfffff900c2cba0... 2019/7/6 22:51:04 
全 0x8d0a38cd Font Oxfffff900c2adda... 2019/7/6 22:51:04 
便 0x91013f9d DC Oxfffff900c2efa630 2019/7/6 22:51:04 
全 0xa3053d0b Bitmap 0Oxfffff900c2ffd9a0 2019/7/6 22:51:04 
号 0xa3103ad7 Brush 0Oxfffff900c69a83... 2019/7/6 22:51:04 
便 0xb310103b Brush Oxfffff900c46d69... 2019 /6 22:51:04 
量 0xb50a2864 Font 0Oxfffff900clff9780 2019/7/6 22:51:04 
中 0xe00139aa DC 0Oxfffff900c42eb0..， 2019/7/6 22:51:04 
重 0xf1013d03 DC Oxfffff900c1ff7630 2019/7/6 22:51:04 


本 


19 -2 devicetree. exe 所 占用 的 GDI 资源 
2. DirectX 
DirectX( Direct eXtension ) 是 由 微软 提供 的 多 媒体 编程 接口 ,用 于 在 Windows 平台 上 的 
洲 戏 或 者 多 巡 体 进程 的 场景 中 获得 更 高 的 执行 效率 .更 好 的 3D 显示 效果 和 首 频 效果 ,并 为 
Windows 程序 提供 高 性 能 的 多 烧 体 人 硬件 加 速 文 持 , 如 图 19 -3 所 示 。 
DirectX 接口 API 由 4 部 分 构成 :显示 部 分 .音频 部 分 .输入 部 分 和 网 络 部 分 。 
> 显示 部 分 API. 负 责 图 像 处 理 功 能 的 API, 分 为 DirectDraw(DDraw) 和 Direct3D( D3D) 
两 类 ,前 者 负责 2D 图 像 ( 例 如 视频 播放 .图 片 播放 .2D 游戏 等 ) 加 速 ,是 对 GDI 的 一 
种 增强 ;后 者 负责 3D 效果 (例如 3D 游戏 中 的 人 物 ) 的 展示 。 
> 音频 部 分 API: 人 负责 播放 声音 、 人 处理 混 首 、 录 首 和 3D 音效 等 功能 的 API, 最 主要 的 API 
是 DirectSound 方法 。 
> 输入 部 分 API: 文 持 多 种 外 设 的 输入 ,例如 游戏 输入 设备 .手柄 模拟 希 等 。 
> 网 络 部 分 API: 文 持 包 括 TCP/IP\IPX 串口 等 多 种 方式 在 内 的 API, 主 要 用 于 具有 网 
络 功能 的 游戏 开发 。 
与 GDI 相 比 ,DirectX 主要 是 针对 GPU 而 设计 的 , 面 癌 的 是 专门 的 3D 可 视 化 计算 任务 
及 其 加 速效 果 ,对 于 计算 资源 的 消耗 也 主要 集中 在 CPU 及 其 相关 便 件 ;而 GDI 盯 准 的 是 普 
通 的 2D 操作 ,动用 的 也 是 CPU 的 计算 资源 。 因 此 从 普 适 性 上 来 说 ,GDI 强 于 DirectX ,但 
DirectX 本 和 与 就 是 瞄准 3D 演 染 加 速 的 ,其 应 用 场景 需要 专门 的 CPU 人 硬件 文 持 也 在 情理 
-a 
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驱动 程序 

Fh: Intel (R) ID Graphies 620 主 驱动 程序 : igdundim64. dll, igdl0iumd64. dl] 
造 商 ; Intel Corporation 遍 本 : 21. 20. 16. 4508 

| Tntel (RY WD Graphiecs Family : 2016/8/28 2:44:42 

1, Interral 
总 数 ，1824 吧 

: 1920 x 1080 (32 bity GOHz) 

: 通用 即 括 即 用 监视 器 


DirectX 功能 
DireatDraw 加 速 : 已 启用 
Direct3D 加 速 已 启用 
A5F 纹理 加 速 : 已 启用 


图 19-3 DxDiag 显示 的 DirectX 信息 


在 WDDM 框架 中 ,DirectX 驱动 也 分 成 两 部 分 :Windows 实现 了 在 内 核 层 的 底层 便 件 相 
天 的 部 分 ,DirectX 则 实现 用 户 层 的 软件 相关 的 部 分 。 
3. OpenGL 
OpenGL( Open Graphics Library, 开放 图 形 库 ) 是 一 套用 于 泻 染 2D .3D 矢量 图 形 的 跨 语 
言 . 鉴 平 台 且 便 件 无 关 的 API。 其 API 总 数 接近 400 个 ,多 用 于 3D 可 视 化 显示 、 游 戏 开发 、 
虚拟 现实 、 人 工 入 能 等 场景 。OpenGL 具有 以 下 特性 : 
> OpenGL 通过 一 系列 的 几何 图 元 (上 点、 线段 三 角形 以 及 patch) 来 创建 三 维 空间 的 
> OpenGL 是 面 四 过 程 而 不 是 面 问 对 象 的 ,不 文 持 面 问 对 象 的 编程 思想 。 
> OpenGL 既 可 以 软件 实现 ,也 可 以 人 硬件 实现 。 图 19 -4 中 左边 为 软件 实现 “构造 图 
形 ” 部 分 即 为 软件 实现 的 模块 ,其 下 游 为 图 形 设 备 接口 ;右边 为 便 件 实 现 ,OpenGL 下 
接 调 用 显卡 驱动 ,显卡 驱动 则 直接 与 显示 设备 打交道 ,并 不 经 过 图 形 设 备 接 口 。 


硬件 驱 
动 枉 厅 


显示 设备 


恒 19-4 ”OpenGL 的 软 硬 件 实现 


> OpenGL 采用 了 C/S 设计 模式 ,其 客户 端 是 使 用 OpenGL API 的 用 户 态 进程 ,其 服务 闪 
则 是 使 用 图 形 人 硬件 厂商 所 提供 的 OpenGL 实现 。 

> 在 没有 OpenGL 时 ,CPU 与 CPU 之 间 的 数据 交换 是 通过 内 存 控制 各 实现 的 ,速率 较 
低 , 而 OpenGL 创建 了 连续 RAM 的 缓存 区 域 以 文 持 CPU 与 CPU 之 则 融 效 率 交 换 
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> OpenGL ES 是 OpenGL 的 裁剪 版 本 ,专用 于 移动 端的 图 像 开 发 。 

> OpenGL 基于 泻 梁 管线 (pipeline ) 模 型 绘制 图 形 。 图 形 在 应 用 进程 中 通过 描述 空间 位 
置 或 项 点 来 指定 其 形状 ,这 些 顶 点 在 处 理 过 程 中 会 流 经 OpenGL 一 系列 模块 ,每 个 模 
块 在 图 元 (图 形 的 基本 组 成 部 分 ) 经 过 时 对 其 实施 一 种 或 多 种 操作 变换 (例如 旋转 、 
平移 .缩放 等 ) 。 

OpenGL 导出 的 因数 一 般 存 在 于 两 个 库 中 , 即 GL( OpenGL 核心 库 ) 和 GUL( OpenGL 实 
用 库 ) ,前 者 包含 了 OpenGL 所 必需 的 图 数 ,后 者 包含 了 新 扩充 的 图 数 。 总 体 来 看 ,OpenGL 
的 导出 困 数 分 为 以 下 几 类 : 

> 图 元 函数 :用 于 指定 要 生成 图 形 的 图 元 ,包括 绘制 二 维 / 三 维 的 集合 图 元 的 图 数 和 给 

制 离散 型 实体 (例如 位 图 ) 的 函数 。 

> 属性 函数 :用 于 控制 图 元 的 外 观 及 样式 ,例如 颜色 文理 .光照 等 。 

> 观察 函数 :用 于 对 相机 属性 的 操作 ,例如 图 像 拉 近 、 拉 远 的 效果 年 。 

> 控制 函数 :用 于 司 用 OpenGL 各 种 特性 。 

> 查询 函数 :用 于 查询 OpenGL 各 种 状态 变量 。 

上 述 三 个 基础 图 形 库 中 ,DirectX 和 OpenGL 需要 在 用 户 态 空间 中 提供 驱动 模块 以 泻 染 
图 像 , 而 相应 的 显卡 驱动 则 处 于 内 核 态 空间 中 。 显 卡 驱 动 实 际 上 是 个 即时 编译 右 ( Just-In- 
Time Compiler ,JIT) ,会 将 图 像 相 关 的 API 所 用 的 指令 编译 成 CPU 指令 ,同时 负责 在 CPU 和 
GPU 之 间 传 递 图 像 。 

在 理解 了 上 述 三 个 Windows 基础 图 形 库 后 我 们 来 看 WDDM 框架 ,如 图 19 -5 所 示 。 


应 用 程序 
Direct3D 运 行 时 库 用 户 态 显卡 驱动 


内 核 态 访问 接口 OpenGL 
(gdi32.d1]) 客户 端 驱 动 


用 户 态 空间 
内 杷 态 空间 


| 
DirectX 图 形 化 内 核子 系统 (dxgkrnl* sys) 包 括 了 显示 


端口 驱动 、 显 存 管 理 器 GPU 管 理 器 等 模块 


显卡 小 端口 驱动 


190 -SS WDDM 框架 视图 


在 WDDM 框架 中 ,应 用 进程 通过 上 述 三 个 基础 库 与 显卡 驱动 打交道 。 其 中 

e GDI 是 与 模块 win32k. sys 交互 的 ,win32k. sys 再 与 DirectX 图 形 内 核子 系统 模块 
dxgkrnl. sys 交互 ,并 由 dxgkml. sys 统一 向 显卡 的 小 端口 驱动 发 送 请 求 和 指令 。 

e DirectX 通过 Direct3D 运行 时 库 回 应 用 进程 提供 文 持 ,运行 时 库 的 大 部 分 文 撑 功 能 是 
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在 其 用 户 态 驱动 程序 中 的 ,但 也 有 一 部 分 指令 是 直接 发 到 dxgkrnl. sys 中 的 。 

。 OpenGL 与 DirectX 一 样 ,也 拥有 用 户 态 的 客户 问 驱 动 , 也 是 通过 OpenGL 运行 时 库 癌 
应 用 进程 提供 支持 的 ,但 是 OpenGL 运行 时 库 不 直接 与 dxgkrnl. sys 打交道 ,而 是 通过 
客户 端 驱动 (为 OpenGL 接口 服务 的 OpenGL ICD 了 驱动) 和 gdi32. dll 模块 (是 
Windows 下 图 形 用 户 界面 的 应 用 拓展 ) 发 起 各 种 请 求 的 。 

从 图 19 -6 可 以 看 出 ,最 终 的 图 像 都 会 通过 dxgkrnl. sys 驱动 模块 交互 到 内 核 模式 的 显 

卡 驱动 中 。dxgkrnl. sys 作为 DirectX 图 形 内 核子 系统 模块 ,提供 以 下 功能 : 

> 管理 显卡 小 端口 驱动 ; 

> 同上 层 的 DirectX .OpenGL 等 提供 通信 文 持 ; 

> 作为 适 配 层 屏蔽 下 层 各 个 厂商 的 显卡 驱动 的 差异 性 ,提供 类 似 NDIS 的 回调 接口 。 


Ordinal 
N/A 000E9A48 
(nFunctions) Dword 
0005CD28 
0005CC40 
0005CEFS 
0005C68C 
0005D17C 
0001F8E0 
0001F8F8 
0000882C 
0007FFA0 
00008E58 


Function RWA 


Name Ordinal 


O000E9B08 
Word 


Name RVA 


000E9A94 


Dword 
O00EE138 
000EE153 
000EE16C 
000EE182 
O000EE199 
000EE1AD 
O000EE1B9 
O000EE1CB 
O00EE1E2 
000EE1F6 


000E9BE2 


szAnsl 
TdrCompleteRecoveryContext 
TdrCreateRecoveryContext 
TdrlsRecoveryRequired 
TdrlisTimeoutForcedFlip 
TdrResetFromTimeout 
g_TdrConfig 
g_TdrFforceTimeout 
DpsynchronizeExecution 


DpiGetDriverVersion 


DpiGetDxgAdapter 


图 19-6 dxgkrnl. sys 的 导出 函数 


内 核 模 式 显卡 驱动 的 作用 则 包括 资源 的 分 配 管理 , 主 存 与 显存 之 间 的 数据 交换 ( DMA 
方式 ) 以 及 GPU 管理 等 ,这 些 都 是 与 具体 显卡 相关 的 管理 功能 了 。 
WDDM 上 层 的 用 户 模式 驱动 用 于 支持 Windows 基础 图 形 库 的 计算 任务 ,按照 功能 大 致 
包括 了 以 下 组 件 : 
> Display 组 件 :负责 泻 染 和 显示 ,包括 分 辨 率 处 理 .刷新 率 设 置 .多 屏 显 示 等 。 
> 2D 组 件 : 负 责 画 点 画 线 .内 存 快 速 拷贝 等 2D 功能 ,目前 已 经 比较 少 用 ,多 数 2D 功能 
也 可 采用 3D 组 件 来 完成 。 
> 3D 组 件 :负责 3D 图 像 的 显示 和 加 速 任务 。 
> Video 组 件 : 人 负责 视频 编 解码 的 人 硬件 加 速 。 
> 通用 计算 ( General Purpose Computing ) 组 件 : 负责 对 OpenCL、 OpenCV、CUDA 
( Compute Unified Device Architecture ,统一 计算 设备 架构 ) 等 图 像 处 理 框架 的 支持 。 
这 些 图 像 处 理 框架 一 般 通 过 两 种 方式 操控 显卡 ,一 种 是 使 用 内 核 系统 调用 机 制 ,包括 申 
请 映射 释放 显存 对 象 和 执行 GPU 指令 等 ; 另 一 种 是 在 用 户 态 驱动 就 把 API 翻译 成 GPU 指 
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令 , 青 通过 内 核 态 驱动 将 这 些 指令 下 达 给 GPU。 


19.2 WDDM 框 染 与 显卡 驱动 的 交互 


Dxgkrnl 作为 DirectX 图 形 内 核子 系统 模块 对 下 屏蔽 了 各 种 类 型 显卡 的 差异 性 。Dxgkrnl 
信 鉴 了 NDIS 的 设计 思想 ,加 下 层 设备 张 动 提 供 回 调 晒 数 供 显卡 驱动 调用 。 
显卡 驱动 的 人 口 函 数 依 然 是 DirverEntry。 在 WDDM 框架 下 ,任何 厂商 的 任何 型 号 的 显 
卡 驱动 都 要 遵循 WDDM 框架 的 规则 : 
> 入 口子 数 中 宕 要 调用 WDDM 框架 提供 的 Pe 方法 ,用 于 注册 显卡 驱动 回调 
函数 集 数据 结构 DRIVER_INITIALIZATION_DATA ,这 个 数据 结构 中 包括 了 显卡 uy 
了 滑 数 指针 ,例如 Dxgk DdiAddDevice. DxgkDdiStartDevice 等 : ;也 包括 图 像 相关 的 DDI( 设 
备 驱 动 接口 ) 函数 ,例如 图 像 资 源 分 配 接口 等 ;还 包括 了 管理 VIDPN 的 函数 。 调 用 该 
方法 完成 后 ,显卡 驱动 的 回调 靖 数 就 注册 到 了 dxgkrnl. sys 中 。 
> 上 述 注册 完成 后 ,WDDM 框架 回调 显卡 驱动 注册 的 dxgkDdiStartDevice 方法 ,并 将 数 
据 结 构 PDXGKRNL_INTERFACE 作为 参数 传递 进去 。 该 数据 结构 承载 了 dxgkrnl. sys 
提供 给 显卡 驱动 的 回调 限 数 指针 以 便于 下 层 驱 动 调用 。 
至 此 ,显卡 驱动 和 WDDM 框架 完成 了 各 日 的 回调 也 数 指针 的 互相 持 有 。 
在 这 里 我 们 要 解释 一 下 VIDPN。VIDPN 即 视 Tarsct 米 式 集合 
频 呈 现 网 络 (Video Present Network ) ,这 是 一 个 抽 ( )C COC) 
象 的 概念 ,表示 显卡 的 Source 和 Target 和 的 连 
接头 系 , 即 哪些 Source 分 别 癌 哪些 Target 输出 图 
像 , 如 图 19 -7 所 示 。 
其 中 ,Source 是 显卡 的 显示 源 , 即 图 像 的 输入 
侧 ,代表 了 显卡 表面 的 Surface, 所 有 的 桌面 图 像 都 
会 画 到 这 个 Surface。 显 卡 一 般 都 有 两 个 或 两 个 以 
上 的 Source ,一 个 作为 主 显示 表面 , 即 Windows 虽 
面 ; 男 一 个 则 作为 扩展 加 面 显 示 源 ,例如 一 机 双 屏 
的 显示 方式 。Target 则 表示 显示 接口 ,一般 包括 VGA 接口 HDMI 接口 Display-Port 接口 以 
及 其 他 种 类 的 输出 接口 。 显 示 源 Source 都 会 回 某 个 或 奋 干 个 显示 接口 Target 以 输出 最 终 的 
图 像 。 
无 论 是 Source 还 是 Target 都 有 目 己 的 模式 集合 ,这 些 模式 包括 分 辨 率 .颜色 这 度 等 。 
Source 的 路 数 受制 于 显卡 ,但 Target 的 数量 可 以 通过 软件 的 方式 任意 扩展 。 
结合 DirectX,WDDNM 的 画图 操作 执行 流程 如 图 19 -8 所 示 , 这 里 我 们 只 介绍 其 中 的 几 
(1) 应 用 程序 请 求 创建 泻 染 设备 ,DirectX 运行 时 库 问 内 核 态 的 dxgkrnl. sys 发 送 创建 请 
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Source 柑 式 集合 
图 19 -7 Source 与 Target 之 间 的 连接 关系 
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求 ,dxgkrnl. sys 调用 方法 DxgkDdiCreateDevice 创建 设备 对 象 DXGKARG_CREATEDEVICE， 
该 设备 对 象 包含 了 DMA 的 有 关 信 息 。 

(2) DirectX 运行 时 库 调 用 DirectX 的 用 户 态 驱动 的 CreateDevice 方法 以 创建 一 个 图 形 
上 下 文 D3DDDIARG_CREATEDEVICE。 在 CreateDevice 的 调用 中 ,用 户 态 驱动 需要 调用 
pfnCreateContextCb 因数 为 新 建 的 设备 创建 一 个 或 多 个 GPU 执行 线程 。 

(3) DirectX 运行 时 库 调 用 其 用 户 态 驱动 的 资源 创建 图 数 CreateResource ,在 该 晒 数 的 执 
行 中 应 调用 pfnAllocateCb 是 a 

(4) 内 核 态 显卡 驱动 接收 到 DxgkDdiCreateAllocation 调用 ,调用 中 包含 了 为 设备 分 配 的 
资源 的 数量 和 类 型 。 函 数 返 回 的 分 配 信息 在 DXGKARG_CREATEALLOCATION 结构 体 的 成 
员 变 量 pAllocationInfo 指针 列表 中 ,pAllocationInfo 是 个 DXGK_ALLOCATIONINFO 数据 结构 。 

(5) 应 用 程序 发 出 一 个 画图 请 求 后 ,Direct3D 会 调用 用 户 态 显卡 驱动 相关 的 画图 操作 。 

(6) 用 户 态 显卡 驱动 会 与 内 核 态 显卡 驱动 交互 ,最终 完 成 图 像 输 出 。 


(2) CreateDevice 


ptnCreateContextCb 


CreateResource 


: : 户 态 显示 
i pfnAllocateCb 用 户 态 显 不 
Direct3D 驱动 


运行 时 


庙 几 和 三 厅 


(9) 画图 操作 ， 例 如 


DrawPrimitive2 


(8) 呈现 或 刷新 
pfnPresentCh 或 pfnRenderCh 


a) DxgkDdiCreateDevice 


(6) DxgkDdiCreateAllocation 


® DxgkDdiPresent 或 


用 户 态 


DxekDdiRender 


(DD DxekDdiBuldPaeingBufter 
DirectX 本 
图 形 (3 DxgkDdiSubmit 显示 小 端口 
内 核 驱动 
于 系统 DxgkDdiPatch 
(EE\ DxekDdisubmit 
(9 DxekDdilnterruptRoutine 


四 DxekCbNontylnterrupt 


和 DxskCbOueueDpe 
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19.3 ”虚拟 化 桌面 的 显示 支持 


虚拟 化 果 面 ( 云 果 面 ) 与 普通 的 台式 机 果 面 (普通 果 面 ) 有 很 大 的 不 同 ,当然 这 不 古 说 果 
面 呈 现 风格 的 不 同 , 而 是 指 果 面 显 示 技 术 的 不 同 , 即 通过 远程 着 客户 端 查看 到 的 云 果 面 图 像 
和 在 普通 PC 显示 带 上 看 到 的 本 地 操作 系统 界面 图 像 , 两 者 的 传输 方式 是 不 同 的 。 图 19 -9 
是 云 困 面 图 像 和 普通 果 面 图 像 的 显示 框 染 。 


图 形 APP1 图 形 APP2 图 形 APP3 图 形 APP4 


DirectX 运 行 时 库 /OpenGL 运 行 时 库 /GDI APL/GDI+ API 


DirectX 用 户 态 驱动 /OpenGL 用 户 态 驱动 /win32k.sys 


DirectX 图 形 内 核子 系统 (dxgkrnl.sys) 


虚拟 时 面 显卡 驱动 


TCPAP TCP/IP 


图 19-9 云 桌面 与 普通 桌面 的 显示 框架 


当前 的 云 蝎 面 操作 系 : 统 基 本 为 Windows ， 因此 以 Windows 为 例 来 讲述 云 果 面 的 显示 技 
术 比 较 有 代表 性 。 
从 图 19 -9 可 知 , 云 桌面 与 普通 桌面 的 显示 框架 的 不 同 主要 在 下 层 , 即 图 形 内 核子 系统 
ra 
> 普通 桌面 系统 通过 图 形 内 核子 系统 调用 显卡 驱动 ,显卡 驱动 进行 图 像 的 演 染 和 加 速 
并 通过 显卡 设备 输出 到 显示 带 。 
> 云 哩 面 系统 中 ,服务 需 端 代替 硬件 显卡 驱动 的 是 虚拟 桌面 显卡 驱动 ,从 图 形 内 核子 系 
统 ( dxgkml. sys) 的 角度 看 ,这 是 显卡 小 端口 驱动 ,但 本 质 上 这 是 一 个 编码 器 ,即将 云 
更 面 的 图 像 进行 斥 缩 ,并 通过 TCP/IP 协议 传输 到 瘦 客 户 端的 接 人 管理 程序 中 。 作 为 
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瘦 客 户 病 ,其 最 接近 TCP/IP 的 一 层 是 果 面 接 入 客户 问 , 其 任务 就 是 接收 远程 的 昌 面 
不 缩 信 号 并 传递 到 瘦 客 户 端 的 显卡 驱动 中 ,显卡 驱动 解码 演 染 后 将 介面 信号 内 容 发 
送 至 显卡 硬件 ， ,继而 转换 成 HDMI 信和 号 输出 到 显示 器 中 。 
当然 ,通过 TCP/IP 协议 传输 果 面 图 像 的 囊 宽 压力 是 很 大 的 。 因 此 云 果 面 系统 中 大 多 运 
行 2D 进程 而 较 少 运行 计算 量 大 的 3D 进程 ,而 且 对 于 图 形 指令 和 图 像 内 容 进 行 了 各 种 优 
化 ,例如 图 像 数据 压 缩 ( 有 损 和 无 损 压 缩 ) .指令 合并 以 及 缓存 技术 等 。 


本 章 小 结 


本 童 总 结 了 Windows 图 形 框架 的 有 关 细 节 ,包括 基础 库 .与 显卡 驱动 的 交互 过 程 员 
拟 果 面 的 显示 技术 等 。 


第 2U 瘟 。Rootkit 技术 


Rootkit 是 一 种 特殊 的 恶意 软件 ,其 功能 是 在 目标 系统 中 隐藏 自身 ,同时 获取 目标 系统 中 
软件 的 相关 信息 并 发 送 给 恶意 软件 控制 方 ,或 者 在 目标 系统 中 进行 破坏 行为 。 可 以 看 出 ， 
Rootkit 就 是 指 病毒 .高 级 可 持续 威胁 ( Advanced Persistent Threat ,APT) .木马 等 恶意 代码 或 
软件 。Rootkit 所 使 用 的 技术 也 包括 挂钩 技术 .驱动 过 滤 技 术 等 ,甚至 包括 更 为 底层 的 Bootkit 
技术 ,而 这 些 技术 正 是 多 年 来 病毒 与 掺 病毒 、.APT 与 反 APT、 和 人 入 侵 检测 系统 (Intrusion 
Detection Systems ,IDS) 、 入 侵 防 御 系 统 ( Intrusion Prevention System ,IPS) 深度 包 检 测 ( Deep 
Packet Inspection ,DPI) 等 领域 常用 的 基本 技术 ,也 是 “ 必 杀 技 ”" 。Rootkit 涉及 的 操作 系统 不 
仅仅 是 Windows 、Linux 、Android ,i0S ,其 至 一 些 特殊 领域 的 工控 系统 都 在 其 涉猎 范围 。PC、 
服务 顺 .虚拟 机 .公有 云 等 环境 也 都 是 Rootkit 生长 的 沃土 。 

可 以 说 在 这 场 旷 日 持久 的 浩大 战争 中 ,系统 的 攻击 者 与 防御 者 之 间 的 拉锯 日 益 激 烈 ,有 
些 技 术 今 天 还 是 攻击 方 的 王牌 ,明天 可 能 就 成 了 防御 者 的 神 盾 。 所 谓 技 术 没 有 善 恶 ,没有 攻 
击 者 大 高 一 尺 的 全 面 进 攻 , 就 没有 防御 者 道 融 一 到 的 全 线 阻 击 。 而 作为 防御 者 的 友和 车 ,操作 
系统 和 设备 驱动 也 在 不 断 进 化 以 提升 日 己 的 免疫 和 防御 能 力 。“ 小 成 功 徘 朋友 ,大 成 功 徘 敌 
人 ”, 正 是 在 这 场 无 休 无 止 的 攻防 战 中 ,系统 的 攻击 者 和 防御 者 都 进化 出 了 日 己 的 独门 绝技 。 

不 过 本 章 主 要 是 讲述 Rootkit 相关 技术 本 号 ,不 涉及 病毒 与 反 病毒 领域 ,更 不 涉及 狭义 
的 网 络 通信 安全 领域 ,后 面 会 有 专门 的 章节 讲述 这 些 领域 的 相关 技术 。 


20.1 挂钩 技术 


挂钩 技术 , 即 Hook 技术 ,这 是 个 在 操作 系统 .网络 安全 、 软 件 逆 加 等 领域 大 名 易 易 的 证 
老 技 术 。 所 谓 * 挂 钩 ” ,本 质 上 就 是 在 软件 正常 执行 流程 中 “ 艇 入 ”一 个 横 子 ,使 软件 的 执行 
流程 发 生 转 变 。 当 然 ,这 个 “散人 入 ”的 形态 是 多 种 多 样 的 ,例如 Inline Hook、IAT Hook、SSDT 
Hook .IDT Hook .APC Hook 等 。 挂 钩 技 术 在 Windows \Linux\Android\i0S 等 平台 上 均 有 广泛 
的 应 用 。 

挂钩 技术 在 软件 调试 .故障 诊断 .参数 检测 .程序 破解 等 日 党 调试 操作 中 具有 重大 作用 。 
在 调用 非 开 源 的 动态 库 文 件 时 ,特别 是 在 解决 非 开 源 第 三 方 库 的 互相 调用 过 程 中 的 参数 监 
测 等 问题 时 ,如果 采用 Inline Hook 或 者 IAT Hook 的 方式 会 非常 直观 地 检测 出 参数 的 实际 
值 ,从 而 辅助 软件 调试 和 故障 诊断 。 

同时 , 挂 钧 技术 也 是 病毒 与 反 病 毒 领域 最 基本 的 技术 之 一 。 几 乎 所 有 的 病毒 或 APT( 高 
级 可 持续 威胁 ) 都 采用 了 挂钩 的 思想 ,在 操作 系统 内 核 .驱动 .浏览 硕 .应 用 程序 等 多 种 软件 
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体系 内 不 断 地 寻找 挂 钧 点 ,不断 地 进行 着 争夺 与 反 争 夺 的 战争 。 而 在 网 络 安全 对 抗 领域 , 针 
对 网 络 协议 栈 驱 动 的 过 滤 与 挂 钓 则 是 IDS 和 IPS 的 基本 技术 手段 。 
以 上 这 些 技 术 从 广 闵 来 说 都 可 以 归 类 为 挂钩 技术 。 


20.1.1 Inline Hook 


Inline Hook , 即 内 联 挂 钧 ,是 最 原始 .最 底层 的 一 种 挂钩 方式 ,其 本 质 上 就 是 通过 改变 目 
标清 数 代码 头 部 的 奇 干 字 节 来 进行 流程 截获 和 跳 转 的 技术 。 例 如 在 32 位 系统 中 将 函数 汇 
编 代 码 中 的 5 个 字 节 替换 成 jmp 0x12345678, 则 函数 执行 到 这 里 的 时 候 就 会 跳 转 到 本 进程 
空间 内 的 0x12345678 位 置 。 这 里 的 “ 邹 市 ”是 二 进 制 文件 的 机 右 人 码 , 而 不 是 C 语言 或 者 Java 
语言 的 几 个 字 节 的 代码 。 在 Windows 下 ,C/C++ 语言 经 过 编译 链接 之 后 会 形成 PE 文件 ， 
DLL EXE SYS .OCX 等 格式 的 文件 都 是 PE 文件 。 采 用 OllyDbg 等 工具 打开 PE 文件 ,看 到 
的 十 六 进 制 字 节 就 是 机 顺 码 ,如 图 20 -1 所 示 。 


11 和 门 
FF 9D 8954618 dec dword os [18469568] 


398D 28954618 cmp dword ptr [1864695286] ,ecx 
7 了 5 085 jne short 186294ACE 
ES F2EFFFFF call 10293AC0 
E8 9E5900068 call 1029A471 
ES8 S883000008 call 18297B60 
ES8 1D04288808 Call 10298CFA 
jmp short 16294AEB 
cmp eax,3 
jne short 16294AEB 
push ecx 
call 10297BFS8 


1 024AFT1 
图 20-1 在 OllyDbg 中 观察 到 的 进程 的 汇编 指令 和 机 器 指令 
图 20 一 1 中 的 第 二 列 为 编译 后 的 机 右 公 ,第 三 ee 的 汇编 指令 ,当然 这 个 关 
系 部 是 固定 的 ,只 跟 CPU 平台 架构 和 平台 编译 副 有 关 , 同 一 个 品级 误 言 指令 在 X86 和 ARM 
染 构 下 编译 的 结果 是 不 一 样 的 。 例 如 在 X86 架构 下 ,一 条 融 级 指令 可 以 拆 解 为 两 条 汇编 指 
A push ebp 对 应 的 机 和 紫 人 码 就 是 0x55,“ mov ebp ,esp” 对 应 的 机 寓 公 是 0x8BEC; 而 在 ARM 
adh 可 能 同样 一 条 局 级 指令 对 应 td 对 应 的 机 硕 码 也 不 一 样 了 。 其 实 
要 说 在 X86 和 ARM 这 样 一 个 是 复杂 指令 集 一 个 是 精简 指令 集 的 两 个 架构 中 , 束 是 在 同 
复杂 指令 集 且 同属 X86 体系 的 X86 和 X64 架构 中 ,其 编译 的 结 二 采 也 不 尽 相 同 (X64 编译 
入 在 多 64 位 程序 时 会 有 更 多 的 寄存 侣 可 以 选择 ,因此 能 不 依赖 堆栈 就 不 依赖 堆栈 ,这 与 
X86 寄存 天 少 , 大 多 数 情 况 下 需要 依赖 堆栈 传 参 有 很 大 不 同 ) 。 
Inline Hook 的 位 置 大 多 在 图 数 头 部 ,当然 也 可 以 在 中 间或 尾部 ,这 取决 于 我 们 的 具体 实 
a 头 部 的 指令 相对 和合 单 和 固定 ,当然 这 也 是 编译 一 留 下 的 一 个 “后 
]”, 以 备 挂钩 的 不 时 之 需 。 挂 钩 后 可 以 接管 图 数 的 整个 流程 ,不 需要 考虑 图 数 内 部 业务 逻 
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辑 的 割裂 (在 函数 中 汇编 指令 会 把 原始 的 高 层 语 言 指令 拆 得 很 细碎 ,一 条 高 级 语言 指令 可 能 
会 对 应 许多 条 汇编 指令 ,从 程序 逻辑 角度 去 分 割 对 应 的 汇编 语言 指令 的 边界 很 困难 ) ,也 不 

Inline Hook 可 以 采用 一 个 jmp 指令 跳 转 ,其 操作 手段 的 门槛 很 低 , 不 需要 考虑 太 多 的 
“ 包 究 ”。 

Inline Hook 的 大 致 流程 如 图 20 - 2 所 示 ,其 中 左 侧 是 函数 执行 的 正常 流程 , 右 侧 是 挂钩 
后 的 流程 。 可 以 看 到 原来 的 执行 流程 被 截断 了 , 一 个 jmp 指令 使 流程 跳 到 了 旁 路 指令 序列 
以 便 完 成 挂钩 的 业务 ,之 后 再 执行 原来 被 跳 过 的 指令 序列 1 ,并 最 终 执行 完成 原 有 的 所 有 流 
程 。 这 个 流程 非常 简单 直观 , 震 要 注意 的 是 : 


指令 序列 ] jmp 0x123456768 


指令 序列 2 


学 路 指令 序列 
指令 序列 1 


指令 序列 2 


令 序 列 3 


图 20-2 Inline Hook 的 执行 流程 


> 原来 的 指令 序列 1 需要 被 保存 ,因为 在 挂钩 的 业务 逻辑 执行 完 后 还 要 回来 继续 完成 
原 有 的 流程 。 
> 跳 转 指令 一 般 是 5 个 字 方 (32 位 系统 下 ) ,如 采 Inline Hook 跳 转 指令 占用 的 字 节 数 未 
与 原始 的 指令 序列 对 齐 ( 即 没有 正好 占用 一 条 汇编 指令 的 大 小 ) ,需要 用 nop 空 操 作 
进行 填充 ,以 防止 汇编 指令 产生 歧义 。 
> 跳 转 指令 不 目 jmp 一 种 ,还 有 call 指令 .push ret 指令 对 和 等。 这些 指令 占用 的 字 市 数 不 
同 ,可 以 进行 多 种 选择 ,以 便于 对 不 同 原始 指令 字 节 数 的 覆盖 。 
这 里 我 们 需要 解释 一 下 上 述 三 个 跳 转 指令 (jmp、call、push ret) 的 区 别 。 首 先 来 看 跳 转 
的 两 种 方式 : 
> 段 内 转移 :这 种 跳 转 方式 不 修改 CS 寄存 一 (有 段 寄存 一 ) ,因为 不 需要 切换 段 ,所 以 只 需 
要 修改 EIP 寄存 带 , 例 如 jmp eax。 
> 段 间 转移 :这 种 跳 转 方式 既 要 修改 CS 寄存 一 也 要 修改 EIP 寄存 带 , 因 为 要 进行 段 间 
跳 转 ,所 以 CS 寄存 硕 的 内 容 也 会 变化 ,例如 1000 :0。 
明日 了 两 种 跳 转 方式 后 , 接 下 来 看 看 上 述 三 个 跳 转 指令 的 异同 。 
1 ) jmp 指令 
jmp 指令 分 为 得 跳 转 (Short Jump) 、 近 跳 转 ( Near Jump ) 和 和 远 跳 转 ( Far Jump )3 种 方式 ， 
短 跳 转 和 近 跳 转 对 应 段 内 转移 , 远 跳 转 对 应 段 则 转移。CPU 在 执行 jmp 指令 时 并 不 需要 转 
移 的 最 终 目 的 地 址 ,而 是 只 需 包 含 转移 的 位 移 就 可 以 了 。 这 个 位 移 是 目的 地 址 和 当前 jmp 
指令 之 间 的 差 值 。jmp 指令 既 不 影响 堆栈 ,也 不 保存 返回 地 址 。 
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2 ) call 指令 


call 指令 在 进行 流程 跳 转 前 会 保存 返回 地 址 (call 指令 的 下 一 条 指令 的 地 址 ) ,以 便 在 跳 
转 的 目标 代码 中 使 用 ret 指令 返回 到 call 指令 的 下 一 条 指令 处 继续 执行 ,这 个 返回 地 址 的 保 
存 是 要 压 栈 的 ,因此 call 指令 既 影响 堆栈 ,也 保存 返回 地 址 。 执 行 段 内 跳 转 (或 称 “ near 
call”) 时 只 保存 EIP 寄存 器 的 值 ; 如 果 是 段 间 跳 转 (或 称 "far call” ) ,还 要 保存 CS 寄存 器 
的 值 。 

3) push ret 

ret 指令 在 返回 时 从 堆栈 中 取得 EIP 指令 (返回 地 址 ) ,因此 在 执行 ret 指令 之 前 应 该 通 
过 push 指令 将 返回 地 址 压 栈 。push ret 指令 既 影响 堆栈 ,也 保存 返回 地 址 。 

在 Windows 系统 中 ,有 很 多 进行 Inline Hook 的 点 ,我们 将 其 称 为 “挂钩 点 ” 。 内 核 中 , 特 
别 是 SSDT IDT 系统 驱动 模块 (如 win32k. sys) ,它们 都 是 挂钩 的 “ 重 灾 区 ”。 因 为 在 这 些 区 
域 中 挂钩 更 为 底层 ,可 以 规避 用 户 态 进程 隅 离 的 问题 。 试 想 如 果 在 用 户 态 的 单个 进程 内 挂 
钓 , 虽 然 该 进程 内 的 系统 调用 活动 可 以 被 监控 ,但 是 对 于 其 他 进程 就 无 法 监控 了 ,只 能 在 其 
他 进程 中 的 相同 点 上 再 挂钩 。 另 外 ,在 一 些 公用 模块 中 进行 mline Hook 也 是 个 好 主意 (例如 
user32. dl 等 公用 库 ) 。 许 多 杀毒 软件 .系统 防护 进程 都 是 在 内 核 态 空间 进行 挂 钧 ,当然 不 仅 
仅 限 于 Inline Hook ,还 有 其 他 形式 的 挂钩 方式 都 可 以 在 内 核 里 实现 。Inline Hook 是 内 核 态 
和 用 户 态 都 能 使 用 的 挂钩 方式 ,但 是 随 肴 检测 技术 的 进步 ,mline Hook 被 检测 和 移 除 的 可 能 
性 也 空前 增 大 。 

Inline Hook 本 质 上 是 对 内 存 模块 的 履 写 ,一 般 被 履 写 的 内 存 页 面 都 具有 可 执行 权限 。 但 
对 于 Windows 系统 来 讲 ,可 执行 内 存 区 域 一 般 是 不 能 写 的 ,因此 需要 通过 VirtualProtect 等 方法 
改变 当前 内 存 页面 的 该 写 属 性 ,使 之 可 该 .可 与 .可 执行 。 履 与 完成 后 依然 要 调用 VirtualProtect 
方法 恢复 原来 的 读 写 权限 。 

那 能 不 能 对 磁盘 上 的 模块 文件 进行 覆 写 ,使 之 加 载 到 内 存 时 已 经 是 内 联 挂 钓 过 的 呢 ? 
当然 可 以 ,但 那 就 是 文件 蔡 换 或 文件 更 改 而 不 是 内 存 Inline Hook 的 范畴 了 ,我 们 在 这 里 专门 
指 的 是 运行 时 内 存 改 写 这 种 “ 热 ” 方 式 。 

图 20 -3 和 图 20 一 4 分 别 是 Windows 7 环境 下 的 ShadowSSDT 中 的 Inline Hook 和 SSDT 
中 的 Inline Hook 实例 。 可 以 看 到 在 ShadowSSDT 中 共有 7 个 接口 进行 了 mmline Hook ,SSDT 
中 进行 mline Hook 的 数量 更 多 。 这 些 都 是 在 内 核 态 空间 进行 的 挂钩 行为 。 


| alE EE 下 
NiuserGetevgtate 0xFFFFF960000F 于 工 0xFFFFF960000F 于 了 而 - rr Sys 


NtUserGetAsyncieystate OwFFFFF960000EE S04 im DxFFFFF96000DEE5034 C:\Windows\System32\win32k.sys 
NtLisercetkeyboardstate UxFFFFF960000F 5068 | DxFFFFF9S0000F50868 C:\Windows\System32Vin32k,sys 
NtUserAttachThreadInput DxFFFFF960000ED478 in DxwFFFFFS50000ED478 C:\Windows\Ssystem32\Wwin32k,sys 
NtUserGethawInputBuffer CxFFFFF960000FAFCC CDxFFFFF96000D0FAFCC Ci\Windows\system32\Win32k.sys 
NtUsercethawInputDats OxFFFFF960000FA 730 inil OxFFFFFS80000FA 730 C:\Windows\System32\win3ak,. sys 
NtLiserRegisterHotkey CoFFFFFS60000EF 728 im | CDxFFFFFS60000EF 728 C:\Windows\system32\win32k,sys 


20 一 3” Windows 7 系统 中 ShadowSSDT 的 Inline Hook 实例 
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len(1) [ntoskrnl,exe] 


ntoskml.exe:KeUserModeCallback [win32k.sys<=,.. 


[OxFFFFF8000483F000]->[-] 
[DOxFFFFF800046F9372]-> 癌 
[DOxFFFFF800046F94FF] ->[-] 
[OxFFFFFS00046FS6C 可 -> 癌 ] 
[OxFFFFF800046F9851]->[-] 


[OxFFFFF80004937300]->[0xwFFFFF8800425E9,,, 


[OxFFFFF960000EDSE8]->[-] 
[OxFFFFF960000EE674]->[:] 
[DOxFFFFF960000EFS98]->[] 
[OxFFFFF950000F SF28]->[-] 
[OxFFFFFI60000F80AC]->[-] 
[OxFFFFF960000FA8AQ]->[-] 
[OxFFFFF960000FB 13C]->[-] 


2 E9 250480 FSF,,， 
FF 25 00 00 00 00 &,.. 
FF 25 00 00 00 00 9... 
FF 25 00 00 00 00F,,, 
FF 25 00 00 00 00 4... 
FF 25 00 00 00 00E... 
FF 25 00 00 00 00 C&C,,, 
FF 25 00 00 00 00 6... 


D0 73930400F8F,,, 
丰胸 兵 叶 的 各 时 
各 的 所 半 的 咎 旧 ，,. 
物 谷 C4 愧 伏 引 0,,， 
扯 倡 入 8 535.,. 
各 的 护 寺 的 物 旧 ，， 
条 上 6G4 息 朋 台 吕 ,， 
牛人 多 入 2408 535.,. 


len(6) [srv.sys] [OxFFFFF88003D05353]->[-] 


图 20-4 Windows7 系统 中 SSDT 的 Inline Hook 实例 


而 为 了 监控 用 户 态 进程 的 行为 ,也 经 向 在 应 用 进程 的 公共 模块 中 进行 mline Hook ,相当 
于 在 用 户 态 层面 拦截 了 它们 的 必 经 之 路 ,这 在 Windows 中 也 是 稼 见 的 做 法 。 在 用 户 态 进行 
挂 钓 更 稳定 ,对 系统 的 破坏 更 小 。 因 为 在 内 核 态 一 旦 不 慎 因 挂 钓 而 造成 了 错误 ,导致 的 是 
BSOD 式 的 毁灭 性 后 采 ， WA :出现 错误 项 多 就 是 当前 进程 挂 挥 而 已 。 图 20 -5 就 是 对 用 


15 F8 2C FB FF $90 94C260D070100 


户 态 的 公共 模块 user32. dll 进 


映像 名 称 

E lwebservd.exe *32 
Ejmicmute.exe *32 
Eltphkoad.exe 

加 5ogouCloud.exe .…. 
ELocator.exe 

了 一 


进程 ID 
2368 
2412 
2436 
2632 
2640 
2752 


多 进程 站 用户 名 
SYSTEM 
SYSTEM 
SYSTEM 
tanzhe 


NETWO.., 
NETWO.., 


行 的 Inline Hook 实例 。 


进 竹 路径 


C:\Program Files (x86)\]... 
C:\Program Files\Lenovo\... 
C:\Program Files\Lenowvo\,.. 
C:\Program Files (x86)\5... 


C:\Windows\system32\L... 
C:\Windows\System32\s... 


占用 内 存 


运行 时 间 
12:33:48 
12:33:48 
12:33:48 
12:20:56 
12:33:47 
12:33:47 


-Daermon 


-kNetworkSe,., 


进程 类 开 
这 是 一 个 
这 是 一 个 
这 是 一 个 
搜狗 输入 
这 是 一 个 
这 是 一 个 一 


[GFoxmalexe *32 2848 tanzhe D:\Program Files\Foxmall ... 01:32:30 Foxmail 7 


国 wmpmsE exe 

E lunsecapp.exe 
EluserAgent.exe *32 
Econhost.exe 

E |webcategory.exe... 


2852 
2908 
2924 
2992 
3004 
3048 


钧 子 类 型 


Ci\Windows\System32\,.. 
Ci\Windows\System32\... 
C:\Program Files (x86)\I... 
Ci\Windows\System32\c... 
C:\Program Files (x86N]... 
C:\Windows\System32\c... 
C:\Windows\System32\t... 


钧 子 地 址 


原始 模块 ” 钧 子 模块 


DefDlgProca 
DefDlgProcw 
DefiWyindowprocA 
DefWindowprocwW 
EnablescrollBar 
Getscrollnfo 
Getscrollpos 
GetScrolRange 


和 i | 


INLINE HOOK 
INLINE HOOK 
INLINE HOOK 
INLINE HOOK 
INLINE HOOK 
INLINE HOOK 
INLINE HOOK 
INLINE HOOK 


si i 


ONX7 ir0el448 
0x770d3b72 
Dx?70acd12 
Ox770a26ad 
0x748d9cfa 

Ox748d4ed48 
Ox748d5064 
Ox748da084 


[a Tm Ea ky 


user32.dl 
user32.dl 
user32.d 
user32.dll 
user32.dl 
User32.dl 
user32.dll 
user32.dl 


PE a 吉川 


12:33:47 
12:33:47 
12:33:47 
12:33:47 
12:33:47 
12:33:47 
12:33:45 


原始 值 


4E54444,,. 
4E54444... 
4E54444... 
4E54444,.. 
6A10685... 
6A1068A... 
88FF35588... 
8BFF558B,,. 


neenn 


现在 值 


FF255010... 
FF250811... 
FF252010... 
FF25D810... 


图 20-S Windows 7 系统 中 用 户 态 进程 的 Inline Hook 实例 


用 5 个 字 节 (如 图 20 -6 所 示 ) ,i 
令 而 言 是 刚刚 好 的 长 度 。 而 有 时 候 这 几 条 固定 指 
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在 X86 架构 Windows 系统 的 编译 器 中 ,一 般 的 
API 开头 都 被 编 详 成 ”mov edi, edi”“ 
“mov ebp ,esp” 这 样 几 条 指令 ,其 对 应 的 机 器 码 共 占 
这 对 于 一 条 跳 巷 指 


push ebp” 和 


WMI Pro 
Usernam 


Website: 


文件 厂商 


mmOU 已 村 斌 ,已 械 


push ebp 
moy ebp:esp 


某 应 用 进程 函数 的 开头 部 分 


起 


| 
= 


令 之 前 可 能 还 有 一 些 空 操作 指令 nop ,每 条 nop 指令 只 占 一 个 字 市 ,这 些 都 是 可 以 利用 的 进 
行 mline Hook 的 点 。 其 实 无 论 是 开头 的 空 操 作 还 是 nop 指令 后 面 的 几 条 汇编 指令 ,都 是 
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Windows 编译 兹 的 有 意 为 之 ,上 上 人 方便 对 盯 数 开头 进行 挂 钧 。 

不 过 随 着 操作 系统 的 发 展 ,在 内 核 层 进行 mline Hook 越 来 越 困 难 重 重 。 高 版 本 的 
Windows 万 至 其 他 操作 系统 都 对 可 执行 内 存 加 入 了 诸多 监视 ,例如 数据 执行 保护 ( Data 
Execution Prevention ,DEP) 策略 能 够 在 内 存 上 执行 额外 检查 以 防止 在 不 可 执行 的 内 存 页面 
上 运行 恶意 代码 而 我 们 进行 Inline Hook 的 许多 代码 在 Windows 眼中 都 是 恶意 的 、 有 尾 于 操 
作 系 统 安 全 而 运行 的 代码 。 检 测 Inline Hook 的 手段 也 异常 简单 粗暴 :只 需要 对 比 内 存 映 像 
文件 和 原始 磁盘 文件 的 异同 就 可 以 了 。 

Detours 是 微软 开发 的 一 个 图 数 库 ,是 专 门 用 来 进行 Inline Hook 的 ,其 挂 钧 过 程 如 图 20 一 7 
所 示 。 对 于 一 个 隐 数 ,Detours 一 般 使 用 jmp 或 call 指令 来 蓝 盖 曲 数 的 开头 部 分 ,并 跳 转 到 用 
户 指 定 的 代码 区 域 。 被 瞧 换 的 函数 开头 的 几 个 字 厄 被 保存 到 Trampoline( 跳板 ) 吨 数 中 ,也 
就 是 说 Trampoline 保存 了 被 替换 的 函数 的 前 几 条 指令 和 一 个 跳 转 指令 ,以 便于 跳 转 到 目标 
国 数 的 剩余 指令 中 。 当 执行 完 Inline Hook 指定 的 代码 后 既 可 以 直接 返回 ,也 可 以 调用 
Trampoline ,让 Trampoline 调用 原 图 数 。 可 以 说 Detours 为 mline Hook 提供 了 很 大 的 方便 ,并 
且 可 以 免 于 DEP 等 机 制 的 筛 查 。 


Hookfunc ` 理 阴 类 jmp[ResumeFunc_Addrl] 


jmp[B_Addrl] 


Resumefunc 


20 -7 “Detours 挂钩 过 程 


20.1.2 SSDT Hook 


SSDT 就 是 系统 服务 描述 符 表 ,这 是 X86/X64 体系 下 固有 的 数据 结构 。Windows 系统 中 
有 两 个 SSDT ,一 个 是 ntoskrnl. exe 导出 的 ServiceDescriptorTable , 另 一 个 是 在 win32k. sys 中 存 
在 但 并 不 导出 的 ServiceDescriptorTableShadow , 这 在 前 面 的 章节 中 已 经 有 所 摘 述 。SSDT 
Hook 的 挂 钓 方式 与 Inline Hook 不 同 , 它 是 通过 符 换 表 中 的 内 核 图 数 人 口 地 址 的 方式 实现 挂 
钓 的 。 

从 图 20 一 8 可 以 看 出 ,在 本 机 的 Windows 7 环境 下 ,SSDT 的 挂钩 数量 为 0。 在 当前 的 技 
术 条 件 下 ,SSDT Hook 作为 一 种 比较 过 时 的 挂钩 手段 ,无 论 是 在 进攻 方 一 侧 还 是 在 防御 方 一 
侧 ,者 不 再 被 大 规模 使 用 了 。 首 先 SSDT 作为 一 种 重要 的 内 核资 源 ,对 其 挂 钓 必然 会 市 来 效 
率 上 的 损失 ,同时 也 带 来 了 稳定 性 问题 ,SSDT 的 任何 风吹草动 都 会 造成 BSOD 这 样 的 严重 
后 有 果 ; 骨 者 SSDT 虽 为 内 核资 源 ,但 却 处 于 内 核 中 最 接近 用 户 态 进程 的 位 置 ,而 有 些 攻 击 方 将 
Rootkit 植 入 得 很 深 ,处 于 更 为 确 层 的 驱动 WO 管理 各 等 层次 ,因此 在 SSDT 中 挂钩 以 检测 异 
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也 
J 


国 数 名 称 


NtWaitForsingleObject 
NtcallbackReturn 
NtReadFile 
NtDeviceloControlFile 
Nt\WriteFile 
NtRemoveloCompletion 
NtReleaseSemaphore 
NtRephlyWaitReceiwePort 
NtReplyPort 
NtSetInformationThread 


| 二 全 四 


NtQueryInformationFile 
NtOpenKey 
NtEnumerateValueKey 
NtFindAtom 
NtQueryDefaulttLocale 
NtQueryKey 
NtQueryValuekey 
NtAllocateVirtualMemory 


应 用 软件 开发 协议 栈 
常 行 为 也 起 不 到 很 好 的 作用 。 


NtMapUserPhysicalpagesScatter 


当前 煞 数 地 址 

Oxfffff80004aa7820 
0xfffffea0004938adn0 
0Dxfffffe00046e6f40 
Oxfffff8000493c200 
Oxfffff8000499ac80 
Oxfffff8000493cc10 
Oxfffff8000493bc40 
Oxfffff80004954f50 
Oxfffff8000492d060 
Oxfffff80004a78300 
Oxfffff80004935850 
Oxfffff8000494b6ec 
Oxfffff80004938010 
0xfffffa0004950058 
Oxfffff80004b075a0 
Oxfffff8000492a898 
Oxfffff80004930790 
0xfffff80004999660 
0xfffff800049162b4 
Oxfffff80004934c20 
0xfffffe0004936f00 
Oxfffff80004aealb0 
Oxfffff8g0004b1f940 


当前 阔 数 所 在 的 模块 

C:WindowsVSYSterm32Vmtoskrn|,eXe 
CWindows\system32\ntoskml.exe 
C:\Windows\system32\ntoskrmnl.exe 
CWindows\system32\ntoskml.exe 
C:\Windows\system32\ntoskrmnl.exe 
CWindows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 


式 件 厂商 


Microsoft Co... 
Microsoft Co,... 


C:\Windows\system32\ntoskml.exe Mi 


C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C\Windows\system32\ntoskml.exe 
C'\Windows\system32\ntoskml.exe 
C WIndows\system32\ntoskml.exe 
C\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskrnl.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 
C:\Windows\system32\ntoskml.exe 


Microsoft Co... 
Microsoft Co... 
Microsoft Co... 
Microsoft Co... 
Microsoft Co... 
Microsoft Co... 
Microsoft Co... 
Microsoft Co... 


NtQueryInformationProcess 


A 天 站 二 二 禁用 肝 下 于 天 相关 


站 401, 被 挂 国 数 个 数 : 0 


EEC a YN Flies a i lk en ie i re NN a ee) 


20 -8 ”Windows 7 系统 中 的 SSDT 


这 里 要 注意 的 是 SSDT 不 是 一 个 表 , 而 是 包含 了 多 个 表 指 针 的 数据 结构 ,其 各 个 成 员 变 
量 如 下 所 示 : 


typedef struct ServiceDescriptorTable { 
PVOID ServiceTableBase; 
PVOID ServiceCounterTable; 


/ /系统 服务 分 发 表 的 基地 址 

/ /包含 着 SsSDT 中 每 个 服务 被 调用 次 数 的 计数 器 , 这 个 计数 
// 器 一 般 由 sysenter 更 新 

// 由 ServiceTableBase 描述 的 服务 的 数目 : 

/ /和 儿 表 


unsigned Int NumberoftSerVvICesS: 
PVOID ParamTableBase; 


} * PServiceDescriptorTable; 


SSDT 中 只 有 第 一 个 元 对 ServiceTableBase 和 第 二 个 元 邓 NumberOfServices 才 是 数组 指 
针 , 图 20 一 8 中 所 列举 的 各 个 系统 调用 都 是 存放 在 由 ServiceTableBase 指针 指 同 的 函数 数组 
中 的 。 为 了 行文 方便 在 本 草 中 我 们 先 统 地 称 这 个 数组 为 SSDT。 

对 SSDT 进行 Hook 同样 也 要 突破 内 存 的 写 保 护 限制 。 因 为 SSDT 区 域 属于 内 核 可 执行 
区 域 , 存 在 与 Inline Hook 相同 的 问题 。 这 里 的 解决 思路 也 与 前 文摘 述 的 一 致 , 即 先 修改 内 存 
写 保 护 属 性 为 可 写 ,更 改 SSDT 中 需要 挂钩 的 图 数 指针 ,再 恢复 之 前 的 内 存 写 你 护 级 别 。 这 
里 有 几 个 问题 需要 注意 : 

> 如 何 修 改 内 存 与 保护 ? 

> 如 何 找 到 SSDT? 

> 修改 成 什么 样 的 图 数 ? 
这 三 个 问题 也 是 SSDT Hook 的 实际 工程 问题 ,这 里 的 解决 思路 如 下 : 
(1) 针对 如 何 修改 内 存 写 保 护 , 可 以 采用 内 和 存 摘 述 符 表 (MDL) ,MDL 用 于 描述 连续 的 


虚拟 内 存 , 这 正好 可 以 用 于 SSDT 的 修改 : 
QO) 采用 IoAllocateMdl 方法 分 配 一 个 MDL 区 域 , 用 以 将 KeServiceDescriptorTable 映射 到 | 
一 块 虚拟 内 存 中 。 
Q) 采用 MmBuildMdlForNonPagedPool 方法 构造 和 初始 化 MDL 页 帆 号 数组 ,这 个 数组 是 
在 非 分 页 内 存 池 中 构造 的 。 
(3 经 过 上 述 两 步 后 ,SSDT 所 占 的 物理 内 存 就 在 我 们 的 内 存 视图 中 映射 好 了 ,此 时 在 这 
个 视图 中 直接 修改 函数 指针 就 可 以 了 。 
人 修改 完成 后 要 使 用 MmUnlockPages 和 IoFreeMdl 方法 释放 MDL。 
(2) 针对 如 何 找 到 SSDT, 又 可 以 采用 三 种 方式 实现 : 
J 利用 KPCB( 内 核 进 程控 制 块 ) 找 到 SSDT: 
> 在 X86/X64 系统 中 ,FSL0] 寄 存 骨 指向 处 理 需 控制 区 (KPCR ) ,这 个 控制 区 保存 了 系 
统 中 每 个 进程 的 信息 。 
> KPCR 中 有 个 成 员 变量 PrebData 指向 处 理 器 控制 块 KPRCB ,KPRCB 也 是 放 在 KPCR 
后 面 的 数据 结构 。 
> KPRCB 包含 了 当前 线程 的 KTHREAD 结构 ,KTHREAD 中 的 ServiceTable 指针 指向 
SSDT( 硅 为 GUI 线程 则 指向 ShadowSSDT ) 。 
> 总 结 一 下 ,其 查找 顺序 为 FS[0] 一 KPCR 一 KPRCB 一 KTHREAD 一 SSDT。 
@ 使 用 ETHREAD 查找 SSDT:ETHREAD 包含 了 指向 KTHREAD 的 指针 ,其 查找 顺序 可 
以 为 ETHREAD 一 KTHREAD 一 SSDT, 这 是 一 种 比较 简便 的 方式 。 
(3) 引用 ntoskrnl. exe 的 输出 变量 动态 获取 SSDT( 但 无 法 获取 ShadowSSDT)。 
(3) 针对 修改 成 什么 样 的 函数 ,这 个 答案 是 比较 固定 的 , 即 参 数 数量 和 类 型 要 一 致 , 调 
用 约定 要 一 致 。 在 SSDT 中 的 系统 调用 的 调用 约定 都 是 stdcall 类 型 的 。 
对 于 SSDT Hook ,可 以 采用 遍历 的 方式 进行 检测 。 在 SSDT 中 的 系统 调用 的 地 址 范围 都 
不 能 超过 ntoskrnl. exe 模块 的 地 址 范围 ,否则 就 可 以 认为 被 挂钩 了 了 。 如 图 20 -9 所 示 , 在 64 
位 Windows 7 系统 下 ,ntoskrnl. exe 的 基 址 和 大 小 都 有 了 ,模块 的 地 址 范围 也 就 有 了 。 


Oxfffff8g0004650000 0x5dd000 - C:\Windows\system32\n... 
Oxfffifa800124a000 Dxlar000 Oxfffffa8007248300 C:\Windows\system32\D... Microsoft Col 


20 一 9 ntoskrnl. exe 的 基 址 和 大 小 


20.1.3 IDT Hook 


IDT( Interrupt Descriptor Table ,中 断 摘 述 符 表 ) 是 Windows 系统 中 的 重要 数据 结构 ,所 有 
的 中 断 服 务 例 程 都 存放 于 IDT 中 。 与 SSDT 一样 ,IDT 也 位 于 ntoskrnl. exe 模块 ,挂钩 IDT 可 
以 截断 中 断 处 理 流 程 ,这 在 网 络 数据 包 深 度 检测 .中 断 信号 处 理 等 领域 很 有 意义 。 在 X86 系 
统 中 IDT 是 由 8 字 节 长 的 描述 符 组 成 的 一 个 数组 ,数组 中 的 每 个 元 素 被 称 为 IDT_ENTRTY ， 
其 结构 如 图 20 - 10 所 示 , 而 64 位 Windows 7 系统 下 的 IDT 则 如 图 20 -11 所 示 。 
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中 上 断 门 
31 1615141312 


Offset 号 1 1 OD110 000 


31 1615 () 


Segment Selector Otfset 15:**0 


图 20 一 10 ”IDT_ENTRY 结构 


每 个 IDT_ENTRY 的 中 断 处 理 例 程 的 地 址 偏 移 ( Offset ) 被 分 成 了 高 位 部 分 和 低位 部 分 ， 
相应 地 IDT Hook 要 对 每 一 项 的 IDT_ENTRY 同时 挂钩 高 位 地 址 和 低位 地 址 两 部 分 。 


Acpi | scsi | 内 核 钧 子 | Object 构 子 系统 中 断 表 | 
Hook | 是 由 芝 度 WI 前 遂 洪 地址 所 在 模 寺 


DxFFFFF80004821.,.,. Ci:Windows\system32\ntosknl,exe 


Device not available 
Double fault 


Coprocessor Segment Over,., 


Inwalid Tss 


Segment not present 


SIND floating point exception 


Reserved by Intel 
Reserved by Intel 
Reserved by Intel 
Reserved by Intel 
Reserved by Intel 
Reserved by Intel 
Reserved by Intel 
Reserved by Intel 
Reserved by Intel 
Reserved by Intel 
Reserved by Intel 


OxFFFFFS8000821,,, 
DxFFFFFS80004821,., 
DxFFFFFS0004821..; 
OxFFFFFS80004821,,, 
DxFFFFFS0004821.,., 
OxFFFFF80004821.,.. 
OxFFFFF80004821,.. 
OxFFFFF80004821,., 
OxFFFFF80004821... 
OxFFFFF80004821,.. 
OxFFFFF80004821,., 
OxFFFFFSO0004821,., 
OxFFFFF80004821,., 
DxFFFFFS80004821,.; 
DxFFFFF80004821... 
DxFFFFF80004821.,,, 
OxFFFFF80004821,., 
DxFFFFF80004821... 
OxFFFFFS000821,., 
OxFFFFF80004821... 
DxFFFFFS80004621... 
OxFFFFF80004821.., 
OxFFFFFS0004821,.. 
OxFFFFF80004821.,.. 
OxFFFFF80004821,.. 
DOxFFFFFS0004821,., 
OxFFFFF80004821... 
OxFFFFF80004821,., 
OxFFFFF80004821... 
DxFFFFFAO0O00 821,., 


OFFFFFS0004821,,, 
0xFFFFFS0004821.,， 
DOxFFFFFSO0O00 21 ，， 
OxFFFFFS0004821,,, 
OxFFFFFS0004821.,, 
OxFFFFFSO000 B21.., 
OxFFFFFS0004821,., 
OxFFFFFS0004821.,, 
0DxFFFFFS0004621..， 
OxFFFFFS0004821,., 
DxFFFFFS0004821.., 
OxFFFFFSO000 821,., 
OxFFFFF80004821,,, 
DxFFFFFS0004821.., 
DxFFFFFS0004821... 
CxFFFFFS0004621,.， 
OxFFFFFS000 B21.., 
DxFFFFFS0004821... 
OxFFFFFSO0004821,., 
OxFFFFF80004821,., 
OxFFFFFSO000 42 ,， 
DxFFFFFS000.4821,,， 
OxFFFFFS0004821.,., 
OxFFFFF80004821... 
OxFFFFF80004821.,., 
OxFFFFFS0004821,., 
0OxFFFFF80004821.,， 
0xFFFFFS000 和 和 221.， 
DOxFFFFFSO0004821 ,， 
DoxFFFFFS0004621,，， 


C:\Windows\system32\ntosknl,exe 
C:\Windows'\system32\ntoskrnl,exe 
C:\Windows\system32\ntoskrnl, exe 
C:\Windows\system32\ntosknl, exe 
C:\Windows\system32\ntoskrnl,exe 
C:\Windows\system32\ntoskrnl,exe 
C:\Windows\system32\ntoskrnl, exe 
C:\Windows'system32\ntosknl,exe 
C:\Windows'\system32\ntoskrnl,exe 
C:\Windows\system32\ntoskrnl,exe 
C:\Windows\system32\ntoskrnl, exe 
C:\Windows\system32\ntosknl,exe 
C:\Windows\system32\ntoskrnl,exe 
C:\Windows\system32\ntoskrnl,exe 
Cr\WNindows\system32\ntoskrnl, ewe 
C:\Windows\system32\ntosknl,exe 
C:\Windows'\system32\ntoskrnl,exe 
C:\Windows\system32\ntoskrnl, exe 
C:\Windows\system32\ntoskmnl, exe 
C:\Windows'\system32\ntoskrnl,exe 
C:\Windows\system32\ntoskrnl,exe 
CWWindows\system32\ntoskrnl, exe 
C:\Windows\system32\ntosknl, exe 
C:\Windows'lsystem32\ntoskrnl,exe 
C:\Windows\system32\ntoskrnl,exe 
C:\Windows\system32\ntosknl, exe 
C:\Windows'\system32\ntosknl, ewe 
C:\Windows'\system32\ntoskrnl,exe 
C:\Windows\system32\ntoskrnl,exe 
C:\Windows'lsvstem32\intoskrnl,exe 


iDT 派 发 必 数 : 1024， 被 挂 移 国 数 : 0 


Windows 7 系统 中 的 IDT 


改写 IDT 的 方式 与 SSDT Hook 一 样 ,都 是 要 先 解 决 内 存 可 写 性 的 问题 。 不 过 这 里 采取 
了 一 种 不 同 的 方式 ,即使 用 CRO 寄存 融 的 写 保护 位 实现 内 存 可 写 性 。 

CR0 寄存 天 是 控制 寄存 硕 ,其 中 第 16 位 是 写 保护 位 WP, 只 要 将 其 置 0 就 可 以 禁用 写 你 
护 , 置 1 则 可 将 其 恢复 。 具 体 代码 如 下 : 


asml 
IOVT eax, Cr0 
push eax 
and eax, 0xfffefffftft 
IIOT CIU ,eax 


// 将 第 16 位 ( 写 保 护 位 ) 置 为 0 


恢复 原 有 你 护 级 别 的 代码 如 下 : 


asml 
POP eax 
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] 

至 于 怎么 窗 写 ,其 流程 就 与 SSDT Hook 如 出 一 办 了 。 

对 于 IDT Hook 的 检测 , 主要 是 查看 存储 在 IDT 中 的 0x2E 项 ( 中断 方 式 系统 调用 的 总 人 
口 ) 的 地 址 是 否 处 于 内 核 模块 ntoskrnl. exe 或 ntkmlpa. exe 的 范围 内 ,也 要 检测 某 些 人 硬件 设备 
中 断 问 量 号 对 应 的 函数 入 口 地 址 是 否 处 于 合法 的 驱动 模块 内 : 奉 是 , 则 表明 一 切 正 凋 ; 乔 否 ， 
则 表明 IDT Hook 存在 。 目 前 Windows 操作 系统 已 经 废弃 了 中 断 方式 的 系统 调用 ,取而代之 
的 是 快速 调用 ,但 硬件 中 断 的 ISR 还 是 保留 在 IDT 中 的 ,用 这 种 方式 进行 挂钩 也 是 内 核 挂 钧 
比较 常用 的 做 法 。 


20.1.4 GDT Hook 


GDT( Global Descriptor Table ,全 局 摘 述 符 表 ) 是 Windows 中 的 重要 数据 结构 。GDT 与 
LDT( Local Descriptor Table ,本 地 描述 符 表 ) 共同 构 成 了 段 选择 子 的 描述 体系 ,可 用 于 摘 述 远 
跳 转 和 跨 段 的 场景 :根据 CS 寄存 关中 段 选择 子 的 不 同 ,选择 GDT/LDT 中 不 同 的 代码 段 或 数 
据 段 。GDT 全 局 只 有 一 份 ,LDT 却 可 以 有 多 份 ,Windows 7 系统 下 的 GDT 如 图 20 - 12 所 示 。 


人 


0 
0 
0 
0 
0 
0 
0 
0 
1 
1 
1 
1 
1 
1 
1 
1 
2 
2 
2 
2 
2 
2 
2 
2 
3 
3 
3 
3 
3 
3 
3 
3 


0x0000000000,.,, 
0x0000000000,,， 
0x0000000000.,， 
0x0000000000,,， 
Ux0000000000,,， 
0x00F8800004, ,， 
0x0000000000,,， 
0x0000000000.,,， 
0x0000000000,,， 
0x0000000000,,， 
0x0000000000,,， 
0x0000000000.,.. 
0x0000000000,,， 
0x00F8800004, ,， 
0x0000000000,,， 
0x0000000000,,， 
Ox0000000000... 
0x0000000000.,., 
0x0000000000,.,, 
0x0000000000,,， 
0x0000000000,,， 
0x00F8800004, ,， 
0x0000000000,,， 
0x0000000000,,， 
0x0000000000.,.,, 
Ox0000000000.,.. 
0x0000000000,,， 
0x0000000000,,， 
0x0000000000.,， 
0x00F8800004,,， 
0x0000000000,,， 
0x0000000000.,， 


GDT 段 数量 : 32, 可 疑 项 数 : 0， 
图 20-12 Windows 7 系统 中 的 GDT 


0xFFFFFFFFFFF ,， 


0xFFFFFFFFFFF，， 
0xFFFFFFFFFFF，.， 
0xFFFFFFFFFFF，.， 
0xFFFFFFFFFFF，.， 
0xFFFFFFFFFFF，.， 
OxFFFFFFFFFFF... 
0xFFFFFFFFFFF，.， 
0xFFFFFFFFFFF，.， 
0xFFFFFFFFFFF，.， 
0xFFFFFFFFFFF,.， 
OxFFFFFFFFFFF... 
0xFFFFFFFFFFF,.， 
0xFFFFFFFFFFF，.， 
OxFFFFFFFFFFF... 
0xFFFFFFFFFFF，.， 
0xFFFFFFFFFFF,.， 
0xFFFFFFFFFFF，.， 
OxFFFFFFFFFFF.., 
0xFFFFFFFFFFF..， 
0xFFFFFFFFFFF... 
0xFFFFFFFFFFF,.， 
0xFFFFFFFFFFF,.， 
0xFFFFFFFFFFF..， 
OxFFFFFFFFFFF.., 
OxFFFFFFFFFFF.., 
0xFFFFFFFFFFF,.， 
0xFFFFFFFFFFF，.， 
0xFFFFFFFFFFF..， 
0xFFFFFFFFFFF，.， 
0xFFFFFFFFFFF，,， 
0xFFFFFFFFFFF..， 


Code RE Ac 
Data RW Ac 
Code RE Ac 
Data RW Ac 
Code RE Ac 
T5532 Busy 
Data RW Ac 
Code RE 

Code RE Ac 
Data RW Ac 
Code RE Ac 
Data RW Ac 
Code RE Ac 
T5532 Busy 
Data RW Ac 
Code RE 

Code RE Ac 
Data RW Ac 
Code RE Ac 
Data RW Ac 
Code RE Ac 


Data RW Ac 
Code RE 

Code RE Ac 
Data RW Ac 
Code RE Ac 
Data RW Ac 
Code RE Ac 
T5532 Busy 
Data RW Ac 
Code RE 
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在 作者 所 用 Windows 7 环境 下 GDT 中 共有 32 个 有 效 项 ,每 一 项 称 为 一 个 全 局 描述 符 ， 
全 局 描述 符 又 可 细 分 为 数据 段 描 述 符 (如 图 20 -13 所 示 ) .程序 段 描述 符 .系统 段 描述 符 、 门 
摘 述 符 ( 如 图 20 一 14 所 示 ) 等 种 类 ,其 基 址 (Base) 也 是 被 分 成 了 高 址 和 地 址 两 部 分 ,但 根据 
描述 符 种 类 的 不 同 高 址 和 低 址 的 划分 也 不 尽 相 同 。 

之 所 以 要 采用 门 描述 符 的 方式 描述 段 间 跳 转 , 主要 是 因为 在 跳 转 的 过 程 中 每 个 段 都 要 
有 相应 的 校 验 和 特权 级 检查 工作 ,而 段 撒 述 子 中 除了 记载 跳 转 地 址 ,也 记录 了 特权 级 检查 和 
校 验 的 信息 。 

本 质 上 GDT Hook 就 是 在 GDT 中 插入 新 的 调用 门 描 述 符 来 获取 执行 特权 ,但 一 般 不 会 
改写 GDT 中 已 有 的 描述 符 。 因 为 GDT 太 重 要 了 ,以 至 于 不 允许 修改 有 效 表 项 而 只 允许 扩展 
表 项 ,否则 可 能 造成 CDT 不 稳定 的 问题 ,甚至 在 修改 的 过 程 中 造成 BSOD。 可 以 在 有 效 表 项 
的 后 面 新 增 新 的 门 描述 符 进 行 扩 展 。 

基于 此 ,GDT Hook 的 步骤 是 :通过 GDTR 获取 GDT 一 获取 GDT 中 的 空置 项 一 保存 原始 
项 以 便 后 面 进 行 恢复 一 将 新 增 的 门 描述 符 缆 写 到 该 空置 项 的 位 置 上 。 


Im 十 7 m+o mm 十 了 m+4 Im+23 Im 十 之 m+1] Im 


| 


下 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 1 


mw I 上 


图 20-13 GDT 中 的 数据 段 描述 符 


lo 15 14 13 Sa 


段 选择 本 


图 20-14 GDT 中 的 调用 门 摘 述 符 
20.1.5 MSR Hook 


MSR ( Model Specific Resister , 专 有 寄存 天 ) 是 在 Pentium I CPU 之 后 引入 的 特殊 寄存 需 ， 
用 于 改善 系统 调用 的 性 能 ,而 在 此 之 前 的 系统 调用 是 采用 int 0x2E 中 断 指 令 进行 的 ,并 且 需 
要 使 用 堆栈 保存 不 可 变 寄 存 右 的 内 容 。 

MSR 寄存 硕 共 有 3 个 ,如 表 20 -1 所 示 。 
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表 20 一 1 MSR 寄存 器 


SYSENTER_CS_MSR 


SYSENTER_CS_ESR 


SYSENTER_CS_EIP 


Pentium I CPU 也 引入 了 对 应 的 新 的 系统 调用 /调用 退出 指令 ;sysenter 和 sysexit。 同 
时 ,系统 还 支持 扩展 指令 rdmsr 和 wrmsr 以 用 于 MSR 的 读 写 。 有 及 用 rdmsr 谈 时 会 将 MSR 中 
的 64 位 的 信息 读 取 到 (EDX:EAX) 寄存 关中 ,EDX 存放 高 32 位 部 分 ,EAX 存放 低 32 位 部 
分 ;采用 wrmsr 写 时 可 将 要 写 的 信息 存 人 (EDX:EAX) 寄存 器 中 ,同样 也 是 EDX 存放 高 32 位 
部 分 ,EAX 存放 低 32 位 部 分 (在 64 位 系统 下 ,使 用 RDX 和 RAX 代 符 EDX 和 EAX 寄存 笑 ， 
RDX 和 RAX 的 高 32 位 置地 ,只 使 用 低 32 位 存储 MSR 的 数据 )。 在 读 写 时 ECX 寄存 需要 
填写 目标 寄存 器 代号 ,例如 0xl174 代表 了 SYSENTER_CS_MSR 寄存 器 。 有 了 保存 的 地 址 和 
目标 寄存 硕 , 读 写 操作 才能 正常 进行 。 

MSR Hook 也 被 称 为 KiFastCallEntry-Hook ,其 主要 思想 是 干涉 EIP 寄存 骨 ,使 系统 调用 
时 的 指令 走 回 发 生 改 变 , 因 此 MSR Hook 的 主要 目标 是 0x176 号 寄存 器 , 即 SYSENTER_CS_ 
EIP ,这 是 快速 调用 方式 中 的 指令 指针 寄存 硕 , 其 作用 是 保存 要 跳 转 的 指令 指针 。 每 当 执 行 
sysenter 指令 时 ,sysenter 都 会 将 SYSENTER_CS_EIP 寄存 需 中 的 内 容 填 写 到 EIP 寄存 天 中 。 
因此 改变 了 这 个 寄存 器 的 内 容 也 就 改变 了 EIP 寄存 器 的 源 内 容 , 也 就 可 以 改变 系统 调用 的 
执行 流程 。 

挂钩 过 程 中 先 使 用 rdmsr 指令 读 取 SYSENTER_CS_EIP 寄存 带 的 内 容 并 保存 起 来 ,之 后 
使 用 wrmsr 指令 将 挂钩 的 指令 指针 写 到 SYSENTER_CS_EIP 中 ,只 需要 两 步 就 完成 了 MSR 
的 Hook。 当 然 在 Hook 之 前 要 压 栈 保存 EDX EAX 、ECX 这 几 个 可 变 寄存 兹 的 内 容 。 由 于 
MSR Hook 是 内 核 态 挂 钧 ,MSR Hook 只 能 在 Ring0 或 实 模式 下 进行 ,因此 应 使 用 内 核 态 驱动 
的 方式 实现 。 

检测 MSR Hook 的 方式 也 非常 简单 ,就 是 要 检查 SYSENTER_CS_FEIP 寄存 需 中 的 内 容 是 
否 在 ntoskrnl. exe 或 ntkrnlpa. exe 范围 内 。 因 为 SYSENTER_ CS_EIP 寄存 需 执 行 的 是 系统 调 
用 ,而 系统 调用 都 是 在 内 核 模块 中 ,也 就 是 上 述 两 个 模块 之 中 ,因此 无 论 怎么 跳 转 都 不 应 该 
“出 圈 ”。 


20.1.6 IAT/EAT Hook 


IAT 就 是 导入 地 址 表 。 在 PE 文件 中 会 有 各 种 依赖 关系 ,例如 DLLI 依赖 于 DLL2 ,这 是 
非常 常见 的 ,所 谓 依赖 ,最 直接 的 体现 就 是 依赖 一 些 函 数 接口 。IAT 就 是 描述 所 依赖 的 函数 
接口 地 址 的 表 。 

EAT 就 是 导出 地 址 表 。PE 文件 有 时 也 会 导出 一 些 困 数 供 其 他 模块 调用 ,例如 图 20 - 15 
中 的 导 人 地 址 表 中 的 函数 ,就 是 由 本 地 系统 中 的 AnalyzeData. dl 模块 导出 的 ,如 图 20 - 16 
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所 示 。 一 个 模块 引用 为 一 个 模块 中 的 函数 ,对 于 前 者 来 说 叫 作 导入 ,对 于 后 者 来 说 叫 作 导 
出 。 一 般 来 说 导入 的 函数 是 对 应 模块 导出 的 函数 的 子 集 。 


| SIPGateModule.dil 

Module Name | | TimeDateSta. | Forwar .| Name RVA 

0033CD40 | i 00335EF8 | 00335EFC | | \ 
nFunctions ee : 
4 00000000 0033 


Cword 


| 0033CCFA | | AnalyzeDatalnputData 
0033CD12 | AnalyzeDataODPenstreamEx 


0033CD2C 0 AnalyzeDataClose 


| 
0033CCEO : AnalyzeDataGetPacketEx 


AnalyzeDataClose 


AnalyzeDataGetLastError 


AnalyzeDataGetPacket 


AnalyzeDataGetPacketEx 


AnalyzeDataGetSafeHandle 


AnalyzeDataGetTalil 


AnalyzeDataInputData 


AnalyzeDataOpenFile 


图 20--16 用 户 态 某 模 块 的 导出 地 址 表 


IATAEAT 的 具体 格式 和 形态 在 第 12 音 已 有 详细 描述 。IAT Hook 就 是 将 IAT 中 欲 导 人 
模块 的 函数 人 口 地 址 替换 为 其 他 模块 的 人 口 地 址 。IAT Hook 是 比较 常见 的 挂钩 方 式 ,也 是 
一 种 常见 于 用 户 态 挂钩 的 方式 。 

在 被 导入 模块 加 载 到 进程 内 存 空 间 之 前 ,IAT 与 INT 都 指向 相同 的 内 容 ; 而 当 被 导入 模 
块 加 载 到 进程 内 存 空 间 之 后 ,两 者 分 别 指向 了 不 同 的 内 容 :IAT 指向 导入 模块 的 图 数 和 人口 地 
址 ,INT 仍然 指向 函数 名 , 且 在 进程 运行 中 使 用 IAT 进行 寻 址 。 而 我 们 要 挂钩 的 就 是 这 个 
IAT 中 的 地 址 ,这 是 在 内 存 中 以 “ 热 ” 的 方式 蔡 换 的 。EAT 的 挂钩 方式 与 IAT 的 大 致 一 样 。 

因此 ,挂钩 IAT/AEAT 的 步骤 是 :在 内 存 中 定位 IAT/EAT 一 保存 表 中 原始 的 导入 /导出 郴 
数 地 址 项 一 用 新 的 限 数 地 址 蔡 换 相应 地 址 项 一 完成 挂钩 业务 后 恢复 原始 的 导入 /导出 限 数 
地 址 项 。 而 对 于 修改 内 存 的 读 写 权限 属性 ,完全 可 以 通过 VirtualProtect 方法 进行 更 改 。 

挂钩 IAT/EAT 也 面临 着 与 挂钩 SSDT 同样 的 问题 , 即 参数 数量 和 类 型 一 致 性 、 郴 数 调用 
约定 一 致 性 等 问题 。 
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对 于 IAT Hook 的 检测 主要 是 确定 IAT 中 国 数 的 地 址 是 否 在 被 引用 的 模块 的 地 址 范围 
内 。IAT 对 于 每 个 被 导 人 的 模块 都 会 有 一 个 导 和 人 图 数 表 ,每 一 个 导 人 图 数 表 中 的 地 址 都 应 
该 在 对 应 模块 的 内 存 地 址 范围 内 ,否则 就 存在 IAT Hook。 而 对 于 EAT Hook ,就 是 要 检测 导 
出 地 址 表 中 的 图 数 是 否 都 在 图 数 箱 主 模块 的 地 址 范围 内 ,不 在 就 说 明 存 在 EAT Hook。 


20.1.7 消息 报 文 Hook 


Windows 是 采用 消息 机 制 驱动 的 ,因此 消息 是 Windows 的 源 动 力 。 所 谓 消 息 报 文 Hook 
就 是 对 各 种 消息 的 处 理 进行 挂钩 ,一般 是 通过 SetWindowsHookEx 这 个 方法 实现 的 。 

SetWindowsHookEx 是 Windows 提供 的 一 个 特定 API ,由 user32. dll 导出 (如 图 20 一 17 所 
示 ) ,其 核心 操作 是 系统 调用 NtUserSetWindowsHookEx , 目的 在 于 设置 回调 例 程 以 监控 指定 
窗口 的 休 种 消 \。 当 消 筷 J 和 WH 日 你 从 口 en 的 消息 。 消 息 报 


Ordinal | Function RVA Name Ordinal | Name RVA IName 
N/A | 00082938 O00084014 000838B0 | 0008711F 


(nFu nctions) | Dword Word Dword | szAnsl 


000008BF 00028BD0 02 E3 0008870D SetWindowsHookExA 


ooo008co oo0ors04 02E4 oo08e7iF 


000008C1 00040880 02E5 00088731 SetWindowsHookW 


000008C2 0002B320 02E6 00088741 SfmDxBindSwapChain 


000008C3 0002B330 02E7 00088754 sfmDxGetSwapChainStats 


20 一 17 user32. dll 导出 SetWindowsHookEx 


SetWindowsHookEx 方法 将 一 个 由 应 用 程序 定义 的 挂钩 安装 到 挂钩 链 中 去 ,这 个 挂钩 本 
质 上 是 由 用 户 定 义 的 回调 例 程 ,可 以 通过 这 种 通知 式 回 调 例 程 对 系统 中 选 定 的 消息 或 事件 
进行 监控 和 截获 ,这 些 事件 既 可 以 与 某 个 特定 的 线程 有 关 ,也 可 以 是 系统 中 的 全 局 事件 。 
哨 数 的 原型 是 SetWindowsHookEx ( int idHook, HOOKPROC lpfn, HINSTANCE hMod ， 
DWORD dwThreadId) ,下 面 分 别 说 明 其 参数 ， 
> idHook :表示 需要 安装 挂 钓 的 消息 报 文 的 类 型 ,如 图 20 - 18 所 示 , 其 具体 实 参 枚 举 如 下 : 
。 WH_CALLWNDPROC :用 于 钧 住 发 送 到 视窗 进程 的 消息 报 文 , 文 持 在 视窗 例 程 处 
理 该 报 文 之 前 挂钩 。 
。 WH_CALLWNDPROCRET: 用 于 钓 住 已 经 发 送 到 视窗 进程 的 消息 报 文 , 即 在 视窗 例 
程 处 理 之 后 挂钩 。 
WH_CBT: 用 于 截获 CBT 事件 之 前 的 消息 , CBT 事件 包括 激活 、 建 立 、 销 毁 .最 小 
化 .最 大 化 移动 改变 尺寸 等 窗口 事件 ,还 包括 完成 系统 指令 、 移动 鼠标 .设置 鼠 
标 焦点 .键盘 等 事件 。 
。 WH_KEYBOARD :对 键盘 击 键 消息 进行 截获 。 
。 WH_KEYBOARD_LL: 对 底层 的 键盘 输入 事件 进行 截获 ,但 只 能 在 Windows NT 中 
安装 。 
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e。WH MOUSE :支持 对 鼠标 消息 进行 截获 。 

。 WH_MOUSE_LL: 支持 对 底层 的 鼠标 输入 事件 进行 截获 ,但 只 能 在 Windows NT 中 
安装 。 

。 WH_MSGFILTER :支持 截获 由 对 话 框 消息 框 、 沫 单 栏 或 滚动 条 中 的 输入 事件 引发 
的 消息 。 


WH_FOREGROUNDIDLE :支持 当 应 用 程序 的 前 台 线 程 即将 进入 空闲 状态 时 截获 

相关 事件 和 信息 。 

除 此 之 外 ,还 支持 WH_DEBUG .WH_GETMESSAGE .WH_JOURNALRECORD .WH 

JOURNALPLAYBACKWH_SHELL、WH_SYSMSGFILTER 等 事件 报 文 。 

> lpfn :指向 相应 的 挂钩 处 理 闵 数 指针 ,在 这 个 处 理 困 数 中 可 以 加 载 DLL 模块 或 进行 其 
他 操作 。 

> hMod : 指 回 一 个 动态 链接 库 的 句柄 ,该 动态 链接 库 包 含 了 参数 jpfn 所 指 癌 的 挂钩 处 
理 例 程 。 

> dwThreadId :指示 了 一 个 线程 标识 符 ,该 线程 与 挂 钧 处 理 例 程 相关 。 


2 el j= l 慎 杜 | 只 二 
Ox0001007A EYB .Ox000007FE,.. hotkey.dll 31 3184 C:\Windows'\system32Vundl32,.exwe 


Ox00040181 VW | Dx000007FE.,,. 二 rurmlkd ,dl 3532 Ci:\PROGRA mw1\Lenovo\HOTKEY\pnumlkd,.exe 
Dx03C705C9 Dx00000000,.,,. WechatWin.dll | 3908 C:\Program Files (x86)\Tencent\WeCchat\Wechat.exe 
0x03870CE1 WH KEYBQARD LL Ox00000000... Maxthon,dll | 10744 C:\Program Files (x86) WMaxthoniBinMaxthon.exe 


20-18 某 Windows 7 系统 下 被 挂钩 的 消息 及 其 挂钩 宿主 进程 


每 一 个 挂 钧 都 有 一 个 与 之 相关 联 的 数据 结构 列表 , 称 之 为 钩子 链表 ,这 个 链表 由 操作 系 
统 来 维护 。 链 表 中 的 元 系 都 是 应 用 程序 定义 的 被 挂 钓 处理 例 程 调 用 的 回调 商 数 ,也 就 是 该 
消息 钧 子 的 各 个 处 理 例 程 。 因 为 每 一 种 消息 可 能 不 仪 仪 只 有 一 个 钧 子 , 当 有 多 个 钧 子 的 时 
修 就 需要 一 个 链表 来 存储 。 最 后 安 站 的 钧 子 存 放 在 链表 的 起 娘 位 置 ,而 最 早 安 站 的 钧 于 则 
放 在 最 后 ,因此 后 加 入 的 钩子 先 获 得 消息 控制 权 。 当 有 指定 类 型 的 消 奶 发 生 时 ,系统 就 把 这 
个 消息 传递 到 各 个 钧 了 于 处 理 例 程 。 

挂钩 处 理 例 程 可 以 只 监视 消息 而 不 做 修改 ,也 可 以 修改 消息 或 者 阻 断 消 息 的 下 发 ,以 避 
们 这 些 消息 传递 到 下 一 个 挂 匆 处 理 例 程 或 者 日 标 窗 口 。 如 果 在 回调 函数 中 希望 将 事件 传递 
到 链表 中 的 下 一 个 钧 子 ,可 以 调用 CallNextHookEx 消 数 进行 下 发 ,而 UnHookWindowsHookEx 
则 是 锰 载 钧 子 所 使 用 的 方法 。 

Windows 并 不 要 求 挂 钧 处 理 例 程 的 各 载 顺序 一 定 得 和 安 交 顺 序 相 同 或 相反 。 每 当 有 一 
个 钩子 被 色 载 , Windows 便 释 放 其 占用 的 内 存 并 更 新 整个 钓 子 链表 。 如 果 进 程 安 裕 了 某 个 
多 子 却 在 尚未 缉 载 钧 子 之 前 就 终止 了 ,那么 系统 会 自动 为 该 进程 秃 载 钧 子 。 

多 子 处 理 例 程 是 一 个 应 用 程序 定义 的 回调 函数 ,但 不 能 定义 成 某 个 类 的 成 员 函 数 , 而 只 
能 定义 为 全 局 的 C 风格 的 图 数 ,用 以 监控 示 一 特定 类 型 的 消息 。 这 些 消 息 可 以 与 有 示 一 特定 
线程 相关 联 , 也 可 以 是 系统 中 所 有 线程 的 消息 ,也 就 是 说 挂钩 既 文 持 局 部 的 消息 也 文 持 全 局 
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20.1.8 Object Hook 


Object Hook 就 是 对 象 挂钩 ,但 挂钩 的 并 不 是 对 象 本 映 , 而 是 对 象 的 解析 图 数 。 在 
Windows 系统 中 ,OBJECT_TYPE_INITIALIZER 是 个 很 重要 的 数据 结构 ,其 中 包含 了 每 种 对 
象 的 处 理 盟 数 指针 。 无 论 是 对 象 的 新 建 还 是 打开 ,抑或 关闭 ,都 要 执行 这 个 数据 结构 中 的 成 
员 胃 数 ,OBJECT_TYPFE INITIALIZER 结构 如 下 所 示 : 


typedef struct OBJECT TYPE INITIALIZER 1 
USHORT Length; 
BOOLEAN UseDefaultObject,; 
BOOLEAN CaselInsensitive; 
ULONG InvalidAttributes; 
GENERIC MAPPING GenericMapping; 
ULONG ValidAccessMask; 
BOOLEAN SecurityRequired; 
BOOLEAN MaintainHandleCount; 
BOOLEAN MaintainTypeList;} 
POOL TYPE PoolType; 
ULONG DefaultPagedPoolCharge; 
ULONG DefaultNonPagedPoolCharge; 


PVOID DumpProcedure; / /函数 指针 ,指向 对 象 dump 处 理 过 程 
PVOID OpenProcedure; // 消 数 指针 ,指向 对 象 打 开 处 理 过 程 
PVOID CloseProcedure; // 消 数 指针 ,指向 对 象 关 闭 处 理 过 程 
PVOID DeleteProcedure; /1 函数 指针 ,指向 对 象 删除 处 理 过 程 
PVOID ParseProcedure; 1/ 图 数 指 针 ,指向 对 象 解析 处 理 过 程 


PVOID SecurityProcedure; 
PVOID QueryNameProcedure; 
PVOID OkayToCloseProcedure; 
} OBJECT TYPE INITIALIZER, * POBJECT TYPE INITIALIZER; 


OBJECT_TYPE_INITIALIZER 包含 在 OBJECT_TYPE( 对象 类 型 ) 结 构 中 ,而 OBJECT_ 
TYPE 又 是 OBJECT_HEADER( 对 和 象 头 ) 结 构 的 成 员 变 量 ,也 就 是 说 ,任何 Windows 中 的 对 和 象 
都 会 包含 OBJECT_TYPE_INITIALIZER 这 个 数据 结构 。 这 是 因为 系统 中 每 个 对 象 部 有 对 象 
头 结构 OBJECT_HEADER ,不 管 是 什么 类 型 的 对 象 , 不 同 的 只 是 对 象 体 ,对 象 头 总 是 相同 的 。 

打开 /关闭 文件 时 要 如 循 以 下 流程 : 

(1) 执行 系统 调用 NtCreateFile 。 

(2) 调用 IO 管理 需 中 的 IoCreateFile 。 

(3) 调用 对 和 象 管 理 需 的 ObOpenObjectByName。 

(4) 调用 对 象 管理 需 的 对 象 查找 晒 数 ObpLookupObjectName。 

(5) 执行 文件 解析 函数 IopParseFile。 

(6) 执行 设备 解析 哨 数 IopParseDevice。 

最 后 一 步 的 lopParseDevice 最 终 要 找到 目标 类 型 的 对 象 执 行 OBJECT _TYPE _ 
INITIALIZER 中 的 OpenProcedure 耶 数 。 这 里 包含 了 两 层 含 义 ， 

> 对 于 对 象 的 打开 /关闭 操作 ,最 终 还 是 要 调用 具体 对 象 头 中 定义 的 打开 /关闭 处 理 例 

程 ,因为 只 有 每 种 对 象 才 最 异 日 己 ,知道 怎样 打开 和 关闭 日 已 。 
> 不 同 种 类 的 对 象 可 能 会 有 不 同 的 对 象 处 理 例 程 。 
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而 我 们 所 说 的 Object Hook , 就 是 挂钩 上 述 OBJECT_TYPE_INITIALIZER 中 的 处 理 例 程 
(OpenProcedure .CloseProcedure 等 ) ,在 这 些 例 程 中 “做 手脚 ” ,可 以 有 效 截 获 对 象 处 理 的 相关 
3 作 © 

20 一 19 中 展示 了 一 个 Object Hook 实例 。 


Eee Feo | 键盘 | I8042prt | 鼠标 | Partmgr | Disk | Atapi | Acpi | scsi | 内 核 钩 子 “Obiject 购 子 | 


SeDefaultobjectMethod UxFFFFFS80004... 
OxFFFFF80004.,,. 

DxFFFFF80004.,.,. 

OxFFFFF80004.,., 

OxFFFFF80004,.. 

OxFFFFF80004.,.,. 

gD OxFFFFFS0004... 

OxFFFFF88004,., 
OxFFFFF88004.,.. 
OxFFFFFSS008.,; 
OxFFFFFSS004,,. 
OxFFFFFSSO04.,.. 
OxFFFFFS8004.,.. 
OxFFFFFSS004.,,. 
OxFFFFFSSO08... 
OxFFFFF88004... 
OxFFFFFSS004... 


PostOperation 
PreQperation 
Predperation 
PostOperation 
PreQperation 
PostQOperation 
PreQperation 
Predperation 
PostOperation 


当前 力 数 地 坟 原始 E -Cbjea 关 型 “| Objectb 直 ”| 和 前 办 前 函数 地 址 所 在 模块 


ObjectType_Calbac 
ObjectType_Callback 
bijectType Callbacdk 
ObjectType_Callbad: 
ObjectType_Callbade 
bijectType Callbhadk 
ObjectType_Callbad: 
ObjectType_Callback 
ObjectType_Callback 


OxFFFFFASOOG... 

OxFFFFFASO0S,,. 
OxFFFFFASOO0G.,,, 
DxFFFFFASOO6,,, 
DxFFFFFASOO0G,,,. 
DwFFFFFASOOG., ，， 
DxFFFFFASOO0G,,. 
DxFFFFFABOOG.,,,, 
OxFFFFFASOOG,,, 
OxFFFFFASOO06,.. 
DxFFFFFABSOOG., 
OxFFFFFASOO06,.,, 
DuxFFFFFASOO06... 


C:\Windows\system32\ntoskml. ENE 

C:Windows\system32\ntosknl,ewe 
C:Wmndows\system32ntosknl,exe 
C:\Windows leystem32\ntosknl, exe 
C:\Windows\system32ntoskml,ewe 
CWmndows\system32ntosknl,exe 
C:\Windows\system32ntosknl, exe 
C:\Windows\system32DRIVERS\S60FsFIt,sys 
CWndows\system32\DRIVERS\360FsFlt.sys 
C:\Windows\isystem32\drivers\OOProtecti64.,,. 
C: WWndows'\system32DRIVERS\360Bo0x64.sys 
C: Wndows'\system32\DRIVERS\360Box6 .4.5Yys 
C:\Windows\system32\DRIVERS\360FsFlt,.sys 
CVWWndows\system32\DRIVERS\360FsFlt.sys 
CWWndows\lsystem32\drivers\OOProtecty64.,. 
CWndows\isystem32\DRIVERS\360B0x64.9Yys 
C:\Windows\system32\DRIVERS\360Box64.sys 


GbjectType_Callback 
- ， CWndows\system32ntosknl,exe 

， CWndows\system32\ntoskml,exe 

， C:\Windows\system32ntosknl,ewe 

，  C:Wndows\system32\ntoslnl,exe 

， CWndows\system32\ntoskml,exe 
‘CiWWndows\system32\ntosknl,ewe 
， C:Wndows\system32ntosknl,exe 
CWndows\system32ntosknl,exe 


， C:\Windows\system32nioskml,ewe 
CWWWndows\lsystem32ntosknl,exe 

， CWndows\system32\ntoskml,exe 
“CWWndowslsystem32\ntosnl,exe 
“CMWndowslseystem32ntoslrnl,exe 
.CWndowslsystem32\ntoskmnl,exe 


: 261, 被 挂 多 国 类 : 1 
图 20-19 某 Windows 7 系统 下 的 Object Hook 实例 


ObRegisterCallbacks 是 对 象 管理 硕 中 的 图 数 ,用 于 注册 各 种 对 象 的 回调 困 数 ,其 第 一 个 
参数 为 POB_CALLBACK_REGISTRATION 类 型 ,也 就 是 OB_CALLBACK_REGISTRATION 数 


归结 构 的 指针 ,而 0B_ CALLBACK_REGISTRATION 结构 又 包含 了 0B_ OPERATION _ 
REGISTRATION 结构 体 , 后 者 是 一 个 回调 函数 信息 结构 体 , 其 布局 如 下 所 示 : 


typedef st ruct OB OPERATION REGISTRATION { 
in POBJECT TYPE *ObjectType; 
/ /对 和 象 的 类 型 ,这 里 注册 回调 函数 的 类 型 PsProcessType 和 PsThreadType (进程 对 象 和 线程 对 象 ) 
in OB OPERATION Operations; 
in POB PRE OPERATION CALLBACK PreOperation; 
/ /创建 之 前 回调 函数 的 地 址 , 每 一 个 回调 包含 什么 信息 在 本 结构 体 中 给 出 
in POB POST OPERATION CALLBACK PostOperation; 


/ /创建 之 后 回调 函数 的 地 址 


} OB OPERATION REGISTRATION, * POB OPERATION REGISTRATION; 


也 就 是 说 ,ObRegisterCallbacks 用 于 注册 各 种 对 和 象 的 回调 函数 ,最 核心 的 操作 就 是 注册 
OB_OPERATION_REGISTRATION 数据 结构 ,这 个 数据 结构 里 包含 了 回调 函数 的 各 种 信息 。 
例如 当 回 目标 进程 添加 保护 权限 时 ,可 以 在 安 闻 挂钩 时 通过 ObRegisterCallbacks 方法 设 
置 OB_OPERATION_REGISTRATION 的 前 序 操 作 和 后 序 操 作 上 ( PreOperation 和 
PostOperation ) 这 两 个 成 员 变 量 ,以 拦截 对 象 创 建 亲 和 对 象 创 建 后 的 通知 信息 。 
从 图 20 -19 中 可 以 看 出 ,此 处 挂钩 的 目标 是 进程 和 线程 对 和 象 ,挂钩 目标 消 数 是 前 序 和 
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后 序 操作 例 程 PreOperation 和 PostOperation ， 而 挂 钓 后 的 明 数 各 为 “ ObjectType_Callback ， AE 
钧 图 数 所 在 模块 的 所 属 进程 为 360 和 QQ 的 系统 保护 软件 驱动 程序 ,因此 挂 钧 操作 的 实施 进 
程 应 为 360 和 00 的 系统 保护 进程 ,并 由 此 可 以 推断 这 是 360 和 QQ 的 系统 保护 软件 对 于 自 
号 的 打开 和 关闭 的 监控 与 保护 。 

在 Windows Vista 之 后 ,由 于 PatchGuard 机 制 的 大 规模 应 用 ,通过 ObRegisterCallbacks 和 
ObUnRegisterCallbacks MH 数 注 册 / 反 注册 回调 钧 子 已 经 成 了 主流 选择 。 


20.1.9 DKOM 


DKOM( Direct Kernel Object Manipulation , 直接 内 核对 象 操纵 ) 是 另 一 类 Rootkit 手段 ,其 
核心 思想 是 直接 修改 内 存 中 的 内 核对 象 ,使 之 能 实现 诸如 进程 /线程 隐藏 .驱动 程序 隐藏 、 特 
权 提 升 等 目标 。 但 实现 这 些 目 标 也 要 基于 一 定 的 系统 基础 : 

> 进程 /线程 都 是 在 内 存 中 运行 的 ,DKOM 操纵 的 是 内 存 中 的 数据 结构 /内 核对 象 。 

> 进程 /线程 等 在 内 存 中 都 有 对 应 的 数据 结构 (例如 ETHREAD、KTHREAD、 

EPROCESS .KPROCESS 等 ) ,并 且 这 些 数据 结构 是 可 以 修改 其 中 的 成 员 变 量 的 。 
> 系统 中 存在 某 些 全 局 列表 ,用 以 存放 ETHREAD .EPROCESS 等 数据 结构 ,并 支持 将 这 
些 结构 串联 起 来 。 
例如 ,进程 的 隐藏 或 伪造 就 可 以 采用 DKOM 的 方式 。 

操作 系统 中 有 一 个 总 链表 PsActiveProcessHead, 这 个 链表 中 存放 着 系统 中 所 有 进程 的 
EPROCESS 结构 ,并且 这 些 EPROCESS 结构 通过 自身 的 ActiveProcessLinks 结构 ( 含 前 向 指针 
Flink 和 后 回 指针 Blink ) 连 接 在 一 起 构成 双 同 链表 ,如 图 20 一 20 所 示 。 系 统管 理工 具 ( 如 任 
务 管理 带 taskmgr. exe 等 ) 或 系统 调用 都 是 通过 这 个 链表 来 获取 系统 中 所 有 进程 信息 的 。 

基于 这 种 双向 链表 来 枚 举 所 有 进程 就 造成 了 一 种 偏 听 则 暗 的 “ 灯 下 黑 ”.; Rootkit 完全 可 
以 通过 修改 双向 链表 来 隐藏 进程 或 伪造 进程 ,比如 对 中 间 某 个 EPROCESS“ 断 链 ”, 或 者 伪造 
一 个 EPROCESS“ 进 链 ”。 


System SITISS.CAE CSTSS. 忆 EC 


ForwardLink 


BackLink 


20 一 20 系统 进程 链表 PsActiveProcessHead 


基于 上 述 思想 , 想 要 隐藏 和 伪造 进程 必须 首先 获取 PsActiveProcessHead 链表 ,这 也 是 基 
于 DKOM 技术 隐藏 进程 的 关键 一 步 。 有 以 下 几 种 获取 方法 : 

1) 从 KdInitSystem 哨 数 地 址 处 便 编 公 搜 索 

系统 内 核 变量 KdDebuggerDataBlock 是 一 个 KDDEBUGGER_DATA64 类 型 的 结构 体 , 其 
成 员 变 量 PsActiveProcessHead 正 指 回 我 们 要 定位 的 PsActiveProcessHead 的 地 址 ,因此 首要 的 


dr 
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任务 就 是 定位 KdDebuggerDataBlock 。 

由 于 KdDebuggerDataBlock 结构 被 KdInitSystem 国 数 引用 ,KdInitSvstem 又 被 ntoskrnl. exe 
的 导出 图 数 KdEnableDebugger 调用 ,因此 PsActiveProcessHead 链表 最 终 可 通过 ntoskrnl. exe 
的 导出 困 数 KdEnableDebugger 获取 。 这 个 调用 链 的 流程 是 :ntoskrnl. exe—KdknableDebugger 
一 KdInitSystem 一 KdDebuggerDataBlock 一 目标 地 址 。 

2) 从 System 进程 (pid =4) 的 EPROCESS 地 址 获取 

PsActiveProcessHead 是 活动 进程 链表 头 , 理论 上 是 链表 中 第 二 个 进程 的 EPROCESS 结 
构成 员 ActiveProcessLinks. Blink 指向 的 目标 ,同时 也 是 链表 中 最 后 一 个 进程 的 EPROCESS 
结构 成 员 ActiveProcessLinks. Flink 指 回 的 目标 。 

第 二 个 进程 即 System 进程 (PID =4) ,因此 可 以 通过 PsLookupProcessByProcessld 从 
System 进程 推断 出 目标 链表 地 址 。 

3) 从 ntoskrnl. exe 的 导出 变量 PsInitialSystemProcess 中 获取 

ntoskrnl. exe 导出 了 一 个 类 型 为 EPROCESS 指针 结构 的 变量 PsInitialSystemProcess ,其 指 
回 进 程 System( PID =4) 的 EPROCESS 结构 ,因此 获取 链表 的 方法 与 上 一 个 方法 类 似 。 

4) 从 KPCR 中 获取 

KPCR 的 0x034 位 置 的 成 员 KdVersionBlock 是 一 个 DBGKD_GET_VERSION64 类 型 的 指针 。 
该 结构 体 成 员 变 量 DebuggerDataList 是 KdpDebuggerDataListHead, KdpDebuggerDataListHead 的 
Flink 指针 就 指向 KdDebuggerDataBlock。 这 就 又 回 到 了 第 一 个 方法 。 

5) 调用 NtSystemDebugControl 函数 获取 

通过 SSDT 中 的 函数 NtSystemDebugControl 可 以 获取 DBGKD_GET_VERSION64 数据 结 
构 , 获 取 了 这 个 数据 结构 ,查找 链表 的 方法 就 与 上 一 个 方法 相同 了 。 

获取 链表 以 后 ,在 链表 中 操纵 内 核对 象 就 很 向 单 了 ,这 里 就 不 详细 介绍 了 。 


20.1.10 IIVTIT Hook 


在 X86/X64 架构 下 ,中 断 回 量 (IV ) 是 指 实 模式 下 存放 在 中 断 癌 量 表 中 的 中 断 服 务 例 
程 ,而 中 断 问 量 表 (Interrupt Vector Table ,IVT) 目 然 也 就 是 实 模式 下 存放 中 断 癌 量 的 表格 ,在 
此 可 将 IVT 与 IDT 作 一 个 对 比 。 

IDT 是 处 于 保护 模式 下 的 中 断 服 务 描述 符 表 , 表 中 的 64 位 描述 符 是 在 保护 模式 下 才能 
被 识别 和 使 用 的 ,因此 IDT 是 操作 系统 加 载 完 成 进入 保护 模式 以 后 的 中 断 服务 例 程 表 。 表 
中 每 一 项 都 是 一 个 中 断 描述 符 , 既 包括 了 有 段 选择 子 ( 用 于 从 GDT 或 LDT 中 选择 段 描 述 符 )， 
也 包括 了 段 俩 移 。 在 保护 模式 下 IDTR 指向 IDT。 

IVT 则 是 处 于 实 模式 下 的 中 断 癌 量 表 , 其 中 的 每 一 项 就 是 中 断 服务 例 程 地 址 而 不 是 中 
断 描 述 符 。 因 为 此 时 处 于 实 模式 下 ,GDT 或 LDT 尚未 初始 化 ,无 法 通过 从 IDT 的 中 断 描述 
符 到 GDT 的 段 描 述 符 的 “二 级 跳 " 方 式 找到 中 断 服 务 例 程 ,因此 表 中 只 能 直接 存放 中 断 服 务 
例 程 的 入 口 地 址 ,如 图 20 -21 所 示 。 在 实 模式 下 也 是 由 IDTR 指向 IVT 的 。 
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从 图 20 -21 可 以 看 出 ,每 个 中 断 问 量 占 4 B。 


其 中 中 断 服 务 例 程 人 口 是 以 segment:offset 的 形式 000005FE vector 255 


A EE O00003FC 
提供 的 , offset 在 低 址 端 , segment 在 高 址 病 , 整个 


IVT 从 地 址 0x0 一 直 延 伸 到 0x3FF ,总 共 占 据 1KB 
pd 

IVT Hook 就 是 替换 IVT 中 的 某 一 项 ,将 中 断 
服务 例 程 的 入口 地 址 蔡 换 为 自己 定义 的 图 数 和 人口 
地 址 ;或 者 干脆 整体 切换 IVT, 从 而 挂钩 实 模式 下 
的 所 有 中 断 服 务 例 程 。 

例如 在 实 模 式 下 先 通过 lidt 指令 获取 IDTR 的 0000008 
值 以 得 到 IVT 的 基 址 (base) 和 和 界限 值 (limit) ,再 将 ep 
该 值 保存 在 变量 中 并 设置 新 的 地 址 变量 :界限 值 ”00000002 vector 0 
不 变 ,IVT 的 基 址 可 以 设置 为 自己 伪造 的 IVT 的 基 0000000 
址 ,最 后 使 用 sidt 指令 将 上 述 伪造 的 IVT 基 址 和 界 0 
限 值 保存 到 IDTR 中 。 这 样 就 完成 了 IVT 的 整体 切换 。 


20.2 注入 技术 


注 人 技术 也 是 一 种 传统 技术 ,其 核心 思想 就 是 将 具有 特定 功能 但 却 与 目标 进程 不 相关 
的 模块 或 代码 段 “ 加 载 ? 到 目标 进程 的 地 址 空间 中 ,使 之 成 为 目标 进程 的 一 部 分 ,注入 模块 能 
够 访问 目标 进程 其 他 模块 中 的 资源 ,或 者 直接 执行 币 注 入 的 代码 段 , 甚 至 可 对 目标 模块 进行 
挂 多 ,可 以 说 是 目标 进程 中 的 “ 余 则 成 ”。 有 多 种 注入 实现 技术 ,这 些 被 注入 的 代码 段 也 曾 被 
称 为 ShellCode 。 


20.2.1 APC 注入 方式 


APC( Asynchronous Procedure Call, 异 步 过 程 调用 ) 是 与 线程 相关 的 ,每 个 线程 都 有 月 己 
的 APC 队列 。 当 线程 切换 或 处 于 可 变 等 待 状态 时 ,线程 的 APC 队列 就 会 被 调度 执行 。 这 种 
机 制 也 可 以 被 用 来 实现 注入 技术 ,具体 做 法 就 是 将 模块 加 载 消 数 封 汉 进 APC 中 ,并 将 该 
APC 投递 到 目标 进程 任意 线程 的 APC 队列 中 等 每 执行 。 

但 要 注意 的 是 APC 挂 人 队列 后 不 会 立即 执行 ,而 要 等 到 被 挂 入 队列 所 在 线程 处 于 可 变 
等 待 状态 或 被 调度 切换 时 才 会 被 执行 。 虽 然 如 此 ,这 对 于 大 多 数 注入 场景 已 经 够 用 了 ， 

以 下 5 个 盟 数 能 够 使 线程 进入 可 变 等 待 状 态 : SleepEx、WaitForSingleObjectEx、 
WaitForMultipleObjectsEx SignalObjectAndWait MsgWaitkorMultipleObjectsEx 。 

APC 注入 的 核心 步 又 非常 简单 ,如 下 所 示 : 

(1) 打开 目标 进程 :使 用 Windows API OpenProcess 可 以 实现 。 
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(2) 在 目标 进程 中 分 配 被 注入 模块 的 内 存 空 间 : :通过 VirtualAllocEx 方法 实现 ,设置 的 
内 存 空间 属性 为 PAGE_EXECUTE_READWRITE ,其 参数 为 OpenProcess 打开 的 目标 进程 
人 句柄。 

(3) 写 入 需要 注入 的 模块 路 径 全 名 :使 用 WriteProcessMemory 方法 实现 ,其 参数 也 是 目 
标 进 程 句柄 和 刚刚 分 配 的 内 存 空 间 地 址 。 

(4) 创建 线程 快照 并 查找 目标 进程 中 的 线程 :使 用 CreateToolhelp32Snapshot 方法 将 系 
统 中 的 所 有 线程 枚 举 出 来 ,通过 判断 线程 所 属 的 进程 ID 查找 出 目标 进程 中 的 线程 。 

(5) 向 目标 线程 添加 APC :使 用 QueueUserAPC 方法 添加 APC , 其 参数 分 别 为 : 

> LoadLibraryA ,将 该 模块 加 载 图 数 的 地 址 作为 APC 隆 数 指针 ; 

> 目标 线程 句柄 ; 

> 步骤 (2 ) 中 创建 的 APC 函数 的 参数 内 存 块 地 址 。 


20.2.2 注册 表 注 入 方式 


当 一 个 新 的 DLL 被 进程 加 载 时 , Windows 系统 中 的 user32. dll 模块 会 调用 LoadLibrary 
方法 加 载 所 有 由 AppInit_DLLs 指定 的 DLL 模块 。AppInit_DLLs 是 注册 表 的 系统 设置 项 ,可 
以 为 任 一 个 进程 调用 一 个 DLL 列表 ,在 注册 表 中 的 具体 位 置 如 图 20 -22 所 示 。 


由 - 册 50 代 wareprt 2 | 包 称 热 据 
中 入 i [ab IconServiceLib IconcodecsService.dl 
由 -时 Svchost 路 DdeSendTimeout 0x00000000 (0) 

四 -而 SystemRest | 器 DesktopHeapLog...。REG_DWORD 。 0x00000001 (1) 

由 - 明 Terminal Se | 品 GDIProcessHandl... 0x00002710 (10000) 
由 - i Time Zones Ti arnin,,， _DW OxFFFFFFFF (-1) 

由 - 卉 Tracing 0x00000032 (50) 


3 
2 
总 


由 EE ee 于 | postMessag... 0x00002710 (10000) 
ps Userinsta 中 sHan... _DW 0x00002710 (10000) 


出 Wbemperf 

一 看 Windows 
由 - 时 Winlogon 
四 由 Winsat 

一 出 WinSATAPI| 到 加 | TransmissionRetr... | 
由 大 WUDF llab AppInk_DLLs REG_SZ 


| 下 由 b 骨 Windows Photo Vi _||| 网 LoadAppInit Dlls REG DWORD 0x00000000 (0) 


| H ir sme Fi 
4 


HKEY_LOCAL MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\Windows 
20 -22 AppInit_ DLLs 在 注册 表 中 的 位 置 
这 种 注入 方式 是 通过 user32. dl 的 人 口 图 数 实 现 的 。 在 user32. dl 的 人 口 图 数 DlIMain 
中 , 当 遇 到 进程 加 载 事件 (DLL_PROCESS_ATTACH) 时 ,会 检查 这 个 注册 表 目 录 ,如果 存 在 需 
要 预 加 载 的 模块 则 加 载 它们 ,也 就 是 说 user32. dll 加 载 了 这 些 模块 。 但 这 种 注入 方式 的 商 端 
是 目标 进程 必须 引用 了 user32. dll。 


mnmsrvc 
15 

Yes 

90 


国耻 
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20.2.3 远程 线程 注入 万 式 

CreateRemoteThread 方法 是 由 kernel32. dll 模块 导出 的 Windows API 之 一 (如 图 20 一 23 
所 示 ) ,其 作用 是 在 目标 进程 中 创建 一 个 线程 ,而 目标 进程 可 以 是 当前 进程 ,也 可 以 是 系统 中 
的 其 他 进程 ,但 不 能 览 主机 创建 , 且 同 主机 的 两 个 不 同 进 程 必须 在 一 个 登录 会 话 中 。 

CreateRemoteThread 方法 多 用 于 远程 注入 技术 , 即 当前 进程 向 其 他 进程 注入 模块 。 这 里 
所 说 的 远程 不 是 器 主机 或 者 跨 会 话 , 而 是 跨 进 程 。 可 见 在 操作 系统 中 ,由 于 其 用 户 态 进程 空 
间 的 隔离 性 ,即使 是 在 同一 系统 的 同一 会 话 中 ,不 同 进程 也 被 视 作 “远程 ”了 。 这 里 还 要 提 一 
点 ,CreateRemoteThread 只 适用 于 Windows Vista 以 下 的 版 本 ,Windows Vista 及 以 上 版 本 要 改 
用 CreateRemoteThreadEx 方法 。 


Ordinal Function RVA Name Ordinal | Name RVA Nme 
N/A 0009F4D0 000A1F02 000A0A94 000A3654 


(nFunctions) Dword Word szAnsi 


O000000AB 0004C840 DOAA CreateRemoteThread 


站 摘 中 目录 


本 20 一 23 kernel32. dll 导出 CreateRemoteThread 和 CreateRemoteThreadEx 


CreateRemoteThread 的 参数 如 下 所 示 ， 


HANDLE, 
WINAPI 
CreateRemoteThreadt1 
_In HANDLE hProcess, / /远程 线程 的 句柄 
In opt LPSECURITY ATTRIBUTES lpThreadAttributes, // 安 全 属性 
‘In SIZE T dwStackSize, / /楼 大 小 
In LPTHREAD START ROUTINE lpStartAddress, /7 进程 处 理 函 数 
In opt LPVOID lpParameter, / /进程 参数 
In DWORD dwCreationFlags, / /默认 创建 后 的 状态 
Out opt LPDWORD lpThreadId / /所 创建 的 线程 的 ID 
); 


使 用 该 方法 需要 经 过 如 下 几 个 步骤 : 

(1) 根据 进程 ID 打开 目标 进程 :使 用 OpenProcess 方法 得 到 进程 句柄 。 

(2) 根据 进程 句柄 在 目标 进程 中 申请 内 存 : 使 用 VirtualAllocEx 方法 分 配 内 存 。 

(3) 在 目标 进程 中 对 刚刚 申请 的 内 存 写 入 所 需 参数 ( 需 加 载 的 DLL 的 完整 路 径 ) :可 以 
采用 WrteProcessMemory 方法 实现 。 

(4) 获取 LoadLibrary 方法 的 模块 加 载 地 址 :可 使 用 GetProcAddress 方法 实现 。 
LoadLibrary 是 由 kernel32. dll 导出 的 图 数 ,而 kernel32. dll 的 加 载 地 址 一 般 是 固定 的 ,因此 使 
用 GetProcAddress 方法 获得 的 LoadLibrary 图 数 地 址 在 各 个 进程 中 都 是 一 样 的 。 

(5) 启动 远程 线程 .使 用 CreateRemoteThread 。 
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20.2.4 浏 贤 絮 辅 助 对 象 方式 


.浏览 器 动 持 

ed Hijack ) 是 一 种 不 同 于 普通 病毒 感染 途径 的 网 络 攻击 手段 ， 它 的 渗 
透 途 径 很 多 ,目前 最 第 见 的 方式 一 般 是 利用 浏览 硕 辅 助 对 象 ( Browser Helper Object,BHO ) 、 
浏 览 器 DLL 插件 挂 钧 、WinSock LSP 等 载体 达到 对 用 户 浏览 占 进 行 恶 意 算 改 和 盐 持 的 目 
的 。 其 中 ,利用 BHO 是 浏览 需 劫 持 的 重要 手段 ,甚至 是 主要 手段 。 这 些 载 体 可 以 直接 寄生 
于 浏览 右 的 模块 里 ,成 为 浏览 紫 的 一 部 分 ,进而 直接 操纵 浏览 器 的 行为 。 我 们 常见 的 打开 下 
却 链 接 到 非 正 常 网 站 就 是 浏览 器 支持 的 例子 。 

2. 浏览 器 辅助 对 多 

浏览 更 辅助 对 象 (BHO) 是 微软 推出 的 作为 浏览 副 对 第 三 方程 序 开发 的 交互 接口 的 标 
准 , 通 过 这 个 接口 就 可 以 编写 代码 来 拓展 浏览 带 ( 下 ) 的 功能 并 获取 浏览 帮 的 行为 (前 进 , 后 
退 .当前 页 面 ) 等 。 当 然 , 剑 都 是 双 录 的 ,这 种 看 似 人 畜 无 害 的 技术 也 给 了 恶意 程序 可 采 之 
机 。 仿 助 BHO, 可 以 实现 一 个 在 每 次 启动 浏览 带 时 都 加 载 的 COM 对 象 ,这 个 COM 对 和 象 运行 
于 浏览 副 的 进程 空间 中 ,完全 可 以 实现 恶意 人 逻辑。 

由 于 BHO 依托 于 浏览 硕 主 窗口 因此 BHO 与 浏览 需 实 例 的 生命 周期 是 一 致 的 。 符 合 
BHO 接口 标准 的 程序 代码 被 封装 成 DLL 的 形式 并 在 注册 表 里 注 册 为 COM 对 象 , 还 要 在 
BHO 接口 的 注册 表 和 人口 处 进行 组 件 注册 ,以 后 每 次 正 启动 时 都 会 通过 此 处 描述 的 注册 信息 
aaa DLL 文件 ,该 文件 就 因此 成 为 IE 的 一 个 构成 模块 (BHO 组 件 ) ,与 下 共享 一 

个 运行 周期 ,直到 IE 被 关闭 。 

IE 启动 时 会 加 载 任何 BHO 组 件 ,这 些 组 件 直 接 进 入 IE 内 存 区 域 ,而 正则 成 为 它们 的 
父 进程 和 载体 ,从 此 下 的 每 一 个 事件 都 会 通过 IUnknown 接口 传递 到 BHO 用 于 提供 交互 的 
IObjectWithSite 接口 ,这 是 BHO 实现 与 下 交互 的 入口 国 数 。 当 然 ,BHO 无 法 舌 知 浏览 的 内 
容 , 例 如 页 面 的 内 容 等 。 

由 于 BHO 是 借助 浏览 器 启动 了 恶意 代码 DLL 的 加 载 ,因此 这 种 方式 也 被 归 类 为 注入 技 
术 。 图 20 -24 显示 了 Windows 7 系统 下 的 BHO 插件 。 


模块 路 径 
cprograrm files (x86MN\thunder metwaorkthundergbhovgeturhtrmn 
ci\program files (x86MN\thunder network\thunderd\bho\getallurl.htrm 
辐 & 使 用 BT 雷 离 线 下 载 - 刍 莱 c\program files (x86N\thunder network\ithunderMbho\offinedownload.htm 
ElAdobe PDF Link Helper 牛 C:\Program Files (x8B6JCormrmon Fles\Adobe\Acrobat\ActveX\AcroIEHelperShim.dl Adobe Systems Incorp... 


ESkype for Business Bro... BB Ci\Program Files (x86)\Microsoft Offica\Office15\OcHelper.dll Microso 和 fi Corporation 


吕 WebProtect C:\Program Filles\CMBCHINA\WWebPprotect\VWebprotect.dll China Merchants Bank 
Eoffice Document Cach... Ci\program Files (x86N\Microsoft Office\root\Officel S\URLREDIR. DULL Microsoft Corporation 
EsafeMon Class C:\Program Files (x86)\360\360Safe\safemon\safemon.dll 360.cn 
EAccountprotectBHO Cass BHOI 括 件 Ci\Users\zZMN\AppData\Roaming\Tencent\QMAQAntiphishing\Accountprotect.dll Tencent 
ElkKngdeePLMClient.Upda.. Activex 插 件 CV\Wndows\Downlbaded Program Files\kingdaeplmclient.dIl Kingdee 


图 20-24 某 Windows 7 系统 下 的 BHO 插件 


3. BHO 的 使 用 
BHO 是 个 COM 进程 服务 ,必须 注册 于 注册 表 的 某 一 键 下 ,IE 和 Explorer 将 查询 这 个 键 
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并 加 载 键 下 所 有 的 对 象 ,BHO 所 在 的 注册 表 键 如 图 20 -25 所 示 。 者 想 使 用 BHO ,首先 需要 
生成 一 个 DLL 文件 ,并 在 注册 表 下 注册 一 个 子 键 ,然后 在 HKEY_CLASSES_ROOT\CLSID 路 
径 下 注册 一 个 CLSID 子 键 并 再 建立 一 个 名 为 InprocServer32 的 子 健 , 默 认 值 设置 为 该 DLL 文 
件 的 完整 路 径 。 


数据 
Lync Click to Cal BHO 
1 


:| 有: 击 CD Buming 


| : ri se 


HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\Browser Helper 
图 20-2S BHO 所 在 的 注册 表 键 

IE 与 BHO 关联 的 步骤 是 这 样 的 : 

(1) 打开 IE 窗口 时 , 先 寻 找 上 述 注册 表 键 下 的 CLSID ,这 些 CLSID 都 对 应 看 相应 的 
BHO 插件 ,人 然后 根据 这 个 CLSID 到 HKEY_CLASSES_ROOT 下 的 CLSID 里 找到 此 插件 的 信 
息 , 例 如 文件 位 置 等 。 

(2) IE 根据 找到 的 CLSID 信息 创建 BHO 对 象 , 并 且 查 找 IObjectWithSite 接口 (这 个 接 
口上 只 有 SetSite 和 GetSite 两 个 方法 ) 。 

(3) IE 把 浏览 器 插件 TWebBrowser2 传 到 BHO 的 SetSite 方法 中 ,用 户 在 此 方法 中 可 挂 
钓 日 己 的 事件 处 理 例 程 。 

(4) 窗口 关闭 时 ,IE 将 NULL 参数 传人 BHO 的 SetSite 方法 以 用 于 秃 载 挂 钓 的 事件 处 理 
例 程 。 


20.2.5 ”DLL 劫持 


DLL 支持 也 属于 一 种 变相 的 注入 技术 ,其 核心 思想 是 “注入 ”一 个 伪造 的 必 选 模块 以 实 
现 上 日 标 进程 数据 的 截获 。 

在 PE 文件 的 导入 表 中 只 包含 了 DLL 文件 的 名 称 而 没有 包含 其 路 径 名 ,模块 加 载 程 序 
在 加 载 动态 库 的 时 候 必须 在 磁盘 上 搜索 DLL 文件 。 但 是 搜索 DLL 文件 是 有 优先 顺序 的 . 

(1) 加 载 程序 首先 会 尝试 从 当前 程序 所 在 的 目录 加 载 DLL 文件 ; 

(2) 如 果 上 一 步 没 找到 , 则 在 Windows 系统 目录 中 查找 ; 

(3) 如 果 还 是 没 找到 , 则 在 环境 变量 列 出 的 各 个 目录 中 查找 ; 

(4) 如 果 上 述 三 个 步骤 都 没有 找到 , 则 搜索 加 载 失 败 。 

这 一 特点 正 可 以 被 利用 。 比 如 我 们 先 伪 造 一 个 系统 同名 DLL 文件 (例如 kernel32. dll) 
并 提供 相同 的 导出 表 , 表 中 每 个 导出 哨 数 转 癌 真正 的 系统 DLL 文件 ( kernel32. dl)。 如 此 一 
来 程序 调用 系统 DLL 文件 时 会 先 搜索 调用 当前 EXE 文件 所 在 目录 下 的 系统 同名 DLL 文件 ， 
也 就 是 这 个 伪造 的 DLL 文件 (正常 情况 下 在 当前 目录 下 是 搜索 不 到 的 ,只 能 跳 到 第 二 步 在 
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Windows 系统 目录 中 查找 ,由 于 真正 的 系统 DLL 文件 在 第 二 步 的 目录 中 ,因此 此 时 可 以 搜索 
成 功 )。 但 没 想 到 在 第 一 步 中 就 搜索 到 了 旦 导 出 表 相 同 ,这 实在 是 令 人 太 慰 喜 、 太 意外 了 ,日 
然 也 就 加 载 成 功 了 。 可 以 在 这 个 伪造 的 DLL 文件 中 完成 挂钩 所 要 完成 的 功能 , 再 转 到 
Windows 系统 目录 中 去 执行 真正 的 DLL 文件 。 我 们 称 这 个 过 程 为 DLL 劫持 。 

DLL 劫持 是 一 种 较为 从重 的 办 法 ,其 疯 问 在 于 要 实现 与 原 目 标 DLL 文件 相同 的 导出 表 ， 
昌 要 保持 两 者 的 参数 数量 和 调用 约定 的 一 致 性 ,这 要 求 攻击 者 对 目标 DLL 文件 非常 熟悉 ,从 
而 大 大 限制 了 使 用 的 便捷 性 和 通用 性 。 


20.2.6 PE 感染 
PE 文件 无 论 是 在 内 存 中 还 是 在 磁盘 中 ,都 要 按照 一 定 的 字 节 数 对 齐 。 例 如 在 64 位 系 


统 下 的 内 存 和 磁盘 中 ,32 位 的 PE 文件 均 以 4 KB 为 步 长 对 齐 ( 如 图 20 -26 中 的 
SectionAlignment 和 FileAlignment 域 所 示 ) 。 


”SIPGateModule.dll 


Member Offset 


Magic 00000118 


MajorLinkerVersion 0000011A 
MinorLinkerVersion 0000011B 
SizeOfCode 0000011C 


SizeOfInitiallizedData 00000120 
SizeOfUninitializedData | 00000124 
AddressOfEntryPoint 00000128 
BaseOfCode 0000012C 
BaseOfData 00000130 
ImageBase | 00000134 
SectionAlignment 00000138 


FileAlignment 0000013C Dword 


20 一 26 PE 文件 的 可 选 头 


但 是 PE 头 、 代 码 段 和 数据 段 等 不 可 能 正好 占用 4 KB 或 者 4 KB 的 整数 倍 大 小 的 空间 ， 
都 会 或 多 或 少 留 有 一 些 缝 际 ,而 这 些 颖 际 中 就 可 以 插入 少量 恶意 代码, 甚至 在 PE 文件 的 尾 
部 可 以 通过 扩展 空间 的 方式 插入 大 量 恶 意 代 码 , 而 在 PE 的 入 口 地 址 处 将 入 口 地 址 改 为 指 问 
这 些 代码 ,这 种 注入 方式 就 叫 作 PE 感染 。 

如 图 20 一 27 所 示 ,PE 文件 的 入 口 地 址 被 修改 为 已 插入 代码 的 基 址 。 当 PE 文件 被 加 载 
时 ,首先 就 会 执行 被 插 人 的 代码 , 待 完成 插 人 代码 的 执行 后 再 跳 转 回 正 篆 的 和 人口 地 址 ( 即 修 
改 PE 文件 之 前 AddressOfEntryPoint 指向 的 地 址 ) ,从 而 完成 恶意 代码 的 注入 操作 。 这 里 是 
采用 在 尾部 增加 新 的 Section( 区 段 ) 的 方式 来 实现 恶意 代码 注入 的 。 尾 部 插入 的 方式 不 受 
PE 文件 各 区 段 之 间 " 缝 险 " 大 小 的 限制 ,具有 较 大 的 灵活 性 ,但 要 注意 增加 新 的 Section 后 也 
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要 修改 文件 的 大 小 ,包括 可 选 头 中 的 SizeOfImage 域 和 PE 头 中 的 NumberOfSections 域 等 成 员 


A 三 
所 7 三 和 


AddressOtEntryPoint 


AddressOtEntryPolint 


‘MZ” 

‘P Ed 

年 序 信 口 
常 


Rootkit 创 建 进程 等 程序 尾 端 空 
白 区 域 或 增 
返回 正常 程序 入 口 加 新 区 段 


20 -27 一 种 基于 尾部 插入 的 PE 感染 方式 


程序 尾 癌 空 昌 区域 


20.3 过滤 驱动 技术 


在 Windows 中 ,对 于 IRP 的 过 滤 一 般 是 采用 过 小型 驱动 的 方式 进行 的 。 对 于 一 些 规模 
较 大 且 深 度 较 深 的 协议 栈 , 例 如 文件 系统 驱动 或 网 络 协议 驱动 ,Windows 都 有 专门 的 过 滤 框 
染 供 第 三 方 进行 报 文 /数据 过 滤 。 其 中 文件 系统 驱动 的 过 滤 框 架 是 FltMgr, 而 网 络 协 议 驱 动 
的 过 滤 框 架 则 是 WFP。 这 两 个 框架 是 操作 系统 过 滤 驱 动 的 集大成 者 ,在 前 文中 都 有 介绍 ,本 
节 不 再 歼 述 。 

在 驱动 程序 中 还 有 一 种 过 滤 技 术 ,就 是 对 IRP 的 功能 函数 ( 派 遗 函数 ) 和 快速 IO 函数 
进行 mline Hook ,或 直接 替换 功能 函数 数组 的 函数 指针 为 其 他 模块 函数 的 地 址 ,而 从 技术 上 
看 这 又 属于 类 似 EAT Hook 或 Inline Hook 的 方式 了 ,挂钩 点 和 挂钩 方 式 也 都 大 同 小 异 , 在 这 
里 也 不 性 述 。 

过 滤 驱 动 技术 主要 是 以 过 滤 设 备 对 象 的 方式 堆 二 ( 由 IoAttachDevice 方法 实现 堆 和 登 ) 在 
驱动 设备 栈 中 ,并 以 此 来 过 滤 IRP,IO 管理 屁 问 设备 发 送 的 IRP 会 被 中 间 的 过 滤 驱 动 截 获 ， 
过 滤 驱 动 可 以 选择 截获 阻 断 这 个 IRP 而 直接 返回 ,也 可 以 算 改 这 个 IRP 再 下 传 ,具有 很 大 的 
灵活 性 。 但 这 种 方式 会 对 驱动 设备 栈 的 深度 和 IRP 堆栈 的 深度 造成 影响 ,因为 其 本 质 就 是 
在 驱动 栈 中 内 骸 了 一 层 ,这 一 层 驱 动 也 具备 各 种 主 副 功 能 人 码 的 派 遗 消 数 ,就 像 是 一 层 起 着 过 
滤 作 用 的 功能 驱动 。 例 如 我 们 在 PC 上 登录 网 上 银行 的 U 盾 时 ,往往 感觉 鼠标 和 键盘 会 发 
生 暂 时 的 卡 顿 现象 ,就 是 因为 U 盾 程 序 在 启动 和 激活 键盘 和 鼠标 的 过 滤 型 驱动 而 造成 的 。 

图 20 一 28 中 显示 了 Windows 7 系统 下 的 各 种 过 滤 型 驱动 模块 ,除了 微软 目 喘 堆 羡 的 过 


385 


滤 设 备 ,包括 一 些 系统 保护 软件 在 内 也 会 在 驱动 栈 中 堆 琶 过 滤 设 备 , 例 如 360NsiFilter 就 是 
击 软件 360AntiHacker64. sys 堆 疼 的 设备 。 


系统 回调 a | wdf 人 | 


C; :Nindows System a2 vers\FLTMGR,.SYS 
CWindows'System32ldrivers\partmgr sys 
CWindows'System32 drivers\FLTMGR.SYS 
CWiindowstSystem32\drivers\FLTMGR. SYS 
CWindowe'System32IDRIVERS feveol,.sys 
Cindows\eystem3adrivers\ onap.sys 
CrWindowssystem32 DAIVERS'SYyNnTP ,sys 
C:Wiindows'system32DRIVERS moudass,sys 
:WwWindowsWywstem32WDRIVERSISWTTP， a 
C:\Windows\system32 bddass. 

C! et Sys 
Cindows eystem32Ndrivers\ olmar .sys 
Cindows system32\drivers dr oat, sys 
C:Windows\system32I0RIVERS'dtiteusbbus,.sys 
Crindows\system32IDRIVERS mbus.sys 
CWiindows\system32\drivers\smenum, sys 
C:Windows'\eystem32DRAIVERS psadd,sys 
Crindows\system32OAIVERS\dtitescsibus.sys 
C:Windows\eystem3aNdrivers\bermdd.sys 
CrWiindows\system32 ORIVERS moudsss.sys 
CWindows\seystem32\driversttermdd.sys 
CMWindowslsystem32I0RIVERS bddass .sys 
C:\Windows\system320DRIVERS rdpbus.sys 
CWiindowslsystem32\0RIVERS Yoop.sys 
Cindowseystem320RIVERS rassstp.sys 
Criirndows\eystem32 DORIVERS Yaspptp. sys 
CWindows\system32DRIVERS Yaspppoe,sys 
C:Wiindows'system32DRIVERS ndiswan.sys 
CWiindows\system32\0RIVERS ndiswan.sys 
:WUindewsWystem32DRIVERSWdiswan.sys 
:WUirndoasWwstem32DRIVERSWagsl2tp.sYS 
C:\Windows\system32 DAIVERS\AgleVpn, sys 


Crindowssystem32\driversimssmbios, sys 
C:\Windows'system32IDRIVERS compbatt, sys 
CWiindowstsystem32\IDRIVERS ComposteBus. sys 
CWWindows\system32I0RIVERS blbdrive .sys 


C:\Windows\system32 ORIVERS\bunrmel,sys 
C:\Windows system32 OARIVERS tnel, sys 
CrWVindows\system32\DRIVERS \tunnel, sys 
CWindowslsystem320RIVERS \tunnel,sys 


图 20 一 28 ” 某 Windows 7 系统 下 的 过 滤 型 驱动 模块 


同时 ,过 滤 型 驱动 还 具有 日 己 的 特点 ,包括 . 

(1) 无 需 电源 管理 。 由 于 过 滤 型 驱动 并 非 芮 正 的 设备 驱动 ,而 且 它 们 不 需要 直接 控制 
硬件 设备 ,因此 过 滤 型 驱动 并 不 需要 接收 电源 请 求 IRP_MJ_POWER ,电源 管理 IRP 将 越过 过 
滤 型 驱动 而 被 直接 发 送 到 底层 设备 堆栈 中 。 不 过 在 一 些 特殊 情况 下 ,文件 系统 过 滤 驱 动 有 

可 能 会 影 影 啊 到 电源 管理 。 

(2) 过 滤 型 驱动 都 是 非 WDM 驱动 。 文 件 系 统 过 小 驱动 并 不 是 WDM 驱动 ,WDM 驱动 
模型 仅 适 用 于 设备 驱动 。 

(3) 过 滤 型 驱动 都 没有 AddDevice 或 StartIo 例 程 。 由 于 过 滤 型 驱动 并 非 设备 驱动 日 
它们 并 不 直接 控制 硬件 设备 ,因此 它们 没有 AddDevice 或 Startlo 例 程 ,设备 的 堆 县 一 般 由 
IoAttachDevice 方法 完成 。 


20.4 ”Bootkit 技术 


Bootkit 是 更 高 级 的 Rootkit 手段 ,也 是 更 底层 的 Rootkit。Bootkit 分 为 软件 Bootkit 和 硬件 
Bootkit。 软 件 Bootkit 通过 感染 启动 文件 NTLDR 或 boot. ini 实现 了 先 于 操作 系统 内 核 的 启 
动 ;硬件 Bootkit 通过 感染 MBR( 主 引导 肩 区 ) 甚 至 BIOS 实现 了 内 核 检测 的 绕 过 和 隐 里 启动 。 
由 于 MBR 比 Windows 内 核 加 载 得 更 早 ,日 Bootkit 的 运行 无 文件 无 进程 .无 模块 ,只 存在 于 
运行 的 内 存 和 操作 系统 管辖 范围 之 外 的 人 磅 盘 导 区 空间 里 ,基于 操作 系统 的 防护 软件 对 
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Bootkit 鞭 长 莫 及 ,没有 任何 作用 ,因此 Bootkit 比 其 他 普通 的 Rootkit 更 难 防御 ,更 隐蔽 ,也 更 
项 固 ,即使 重 闭 了 操作 系统 ,Bootkit 依然 存在 。 

一 般 来 说 ,所 有 比 Windows 内 核 更 早 加 载 的 Rootkit 都 可 归 类 为 Bootkit ,例如 BIOS 
Rootkit VBootkit .SMM Rootkit 等 ,但 日 前 最 为 第 见 的 还 是 基于 感染 MBR 的 Bootkit 。 

1. SMM Rootkit 

CPU 的 操作 模式 一 般 分 为 实 模式 保护 模式 V86 模式 和 处 理 器 系统 管理 模式 。 处 理 器 
系统 管理 模式 (System Management Mode,SMM ) 面 回 系统 固件 ,主要 用 于 电源 管理 .系统 安全 
等 方面 的 操作 。 在 SMM 下 ,处理 需 通过 系统 管理 中 断 (System Management Interrupt,SMI ) 切 
换 到 一 个 独立 的 地 址 空间 ,同时 保存 当前 运行 的 程序 或 任务 的 上 下 文 。 从 SMM 返回 时 ,处 
理 需 返回 SMI 前 的 工作 模式 。 

SMM 不 常见 ,只 有 当 CPU 中 SMM 中 断 的 引 脚 被 触发 时 (一 般 是 由 外 部 的 APIC 引起 )， 
CPU 才 会 进入 SMM。 在 SMM 下 操作 系统 .设备 中 断 等 都 会 处 于 失效 状态 ,因此 SMM 具有 
很 高 的 权限 。SMM 对 于 操作 系统 是 透明 的 ,操作 系统 无 法 感知 SMM 的 切换 和 退出 。 所 有 
的 SMM 处 理 例 程 只 能 在 系统 管理 内 人 存 (System Management RAM,SMRAM ) 空间 中 和 运行 ,而 
SMM 处 理 例 程 也 只 能 由 系统 固件 实现 。 

CPU 处 于 SMM 时 会 执行 SMI 处 理 例 程 :首先 触发 SMI ,继而 CPU 将 当前 状态 存储 于 
SMRAM 中 ,再 执行 位 于 这 个 SMRAM 中 的 SMI 处 理 例 程 ,最 后 CPU 遇 到 RSM 指令 而 返回 。 
由 于 SMI 处 于 SMM ,因此 可 以 随意 访问 内 核 数 据 。 这 里 要 强调 的 是 ,普通 的 软件 是 不 能 币 
发 SMI 的 ,能 触发 的 要 么 是 CPU 的 SMI 引 脚 信号 ,要 么 是 高 级 可 编程 中 断 控 制 希 (APIC ) 总 
线 上 的 SMI 消息 。 

Bootkit 对 SMI 的 利用 有 下 列 几 种 方式 : 

> 将 SMRAM Controller 中 的 D_OPEN 标志 位 置 1 ,使 得 非 SMM 的 代码 ( Bootkit) 可 以 访 

问 SMRAM 。 
> 修改 SMRAM 的 SMI 区 域 ,使 之 指向 Bootkit 所 属 的 代码 区 域 , 当 触 发 了 SMI 后 会 执行 
到 Bootkit 。 

> 在 SMI 分 配 表 中 添加 新 的 SMI 处 理 例 程 , 这 个 处 理 例 程 指 向 Bootkit。 

2. MBR Bootkit 

CPU 加 电 后 首先 进入 实 模式 以 进行 相应 的 初始 化 ,包括 GDT 等 数据 结构 都 是 在 实 模式 
下 完成 初始 化 的 ( 实 模式 下 的 寻 址 空间 为 1 MB ) ,完成 后 切换 到 保护 模式 ,X86 系统 中 的 大 
部 分 代码 都 是 运行 在 保护 模式 下 的 (32 位 你 护 模式 下 的 寻 址 空间 为 4 GB)。 

基于 MBR 的 Bootkit 就 是 运行 于 这 两 种 模式 下 的 Rootkit ,因此 这 种 Bootkit 要 具有 实 模 
式 执行 和 保护 模式 执行 这 两 部 分 代码 ,并 且 要 实现 实 模 式 到 保护 模式 的 切换 。Bootkit 在 启 
动 时 先 加 载 月 己 的 代码 ,再 加 载 操作 系统 ,以 此 方式 为 自己 建立 了 有 利 的 启动 环境 。 

我 们 先 来 回顾 一 下 操作 系统 的 局 动 流 程 ,如 图 20 -29 所 示 。 
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恒 20-29 BIOS + MBR 方式 的 操作 系统 启动 流程 


在 Windows 系统 中 比较 常用 的 是 Windows NT S.X 系列 和 Windows NT 6.X 内 校 系列 , NT 
$.X 内核 涵盖 Windows XP、Windows Server 2003 等 系统 ;NT 6.X 系列 内 核 则 涵盖 Window 
Vista Windows 7 、Windows Server 2008 及 以 上 的 系统 ,这 两 种 内 核 体 循 不 同 的 引导 机 制 ,如 
图 20 -30 所 示 。 


winload.exe 或 
内 校 和 引导 启动 WINresume.exe 
A i | 1 
驱动 程 厅 


S 1 基 2 太 核 种 引导 局 动 
onion xp Fo 


图 20-30 NTS.0 内 核 与 NT 6.0 内 核 的 引导 过 程 对 比 


我 们 以 NT 5.0 内 核 的 系统 为 例 。MBR 是 开机 后 BIOS 自 检 所 加 载 的 第 一 个 剧 区 ,BIOS + 
MBR 方式 也 是 5.0 内 核 采用 的 局 动 方式 ,开机 后 其 流程 是 这 样 的 : 

(1) BIOS 加 电 自 检 ( Power On Self Test, POST) , 其 实 模式 下 的 内 存 地 址 为 FFFF :0000 。 

(2) 将 硬盘 第 一 个 扇 区 (0 头 0 道 1 扇 区 ,也 就 是 MBR) 读 入内 存 地 址 0000:7C00 处 , 读 
取 届 区 使 用 的 是 int 0x13 中 上 断 指令 。 

(3) 检查 0000:7DFE 处 是 否 等 于 0xAA55 , 若 不 相等 则 转 去 尝试 其 他 启动 介质 ,如 果 没 
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有 其 他 启动 介质 则 显示 “No ROM BASIC”, 最 后 执行 BSOD ,流程 结束 。 

(4) 若 相 等 则 跳 转 到 0000 :7C00 处 执行 MBR 中 的 程序 ,以 查找 活动 分 区 。 

(5) 在 主 分 区 表 中 搜索 活动 标志 的 分 区 ,如 果 发 现 没 有 活动 分 区 或 有 不 止 一 个 活动 分 
区 时 ,引导 分 区 停止 启动 (只 能 有 一 个 活动 分 区 被 标记 为 可 引导 分 区 ) 。 

(6) 将 活动 分 区 的 第 一 个 悄 区 VBR( Volume Boot Record, 卷 引导 记录 ) 读 入 内 存 地 址 
0000 :7C00 处 。 

(7) 检查 0000 :7DFE 人 处 是 否 等 于 0xAA55 ,各 不 相等 则 显示 "Missing Operating System”， 
然后 停止 启动 或 尝试 其 他 介质 启动 。 

(8) 跳 转 到 0000:7C00 处 继续 执行 特定 系统 的 司 动 程序 加 载 硕 (Inital Program Loader， 
IPL) 。IPL 的 任务 是 在 磁盘 上 定位 NTLDR ,并 将 其 谈 人 内 存 。 

(9) 通过 NTLDR 启动 Windows 系统 ,进入 保护 模式 。 

这 其 中 的 步骤 (1) ~ (4) 都 是 由 BIOS 来 引导 的 ,步骤 (5) ~ (9) 则 是 由 MBR 中 的 引导 
程序 来 引导 的 。 基 于 MBR 的 Bootkit 就 是 将 MBR 中 的 引导 程序 替换 为 自己 的 恶意 代码 ,使 
系统 不 再 去 查找 VBR ,这 样 系统 一 启动 就 加 载 Bootkit 代码 了 。 

MBR Bootkit 根据 代码 的 运行 环境 可 以 分 为 MBR 阶段 .后 实 模式 阶段 ,保护 模式 阶段 、 
系统 内 核 阶 段 和 应 用 程序 阶段 。 每 个 Bootkit 可 能 涵盖 其 中 的 部 分 或 全 部 阶段 , 且 每 个 阶段 
都 相对 独立 。 

3. 基于 可 信 计 算 的 Bootkit 检测 

Bootkit 一 般 有 具有 较 强 的 隐 严 性 和 日 我 防护 措施 ,可 以 通过 挂 钧 磁盘 驱动 的 读 写 例 程 以 
欺骗 杀 毒 软件 ,使 感染 的 磁盘 无 法 正常 修复 ,并 使 之 无 法 获取 真正 的 主 引 导 悄 区 的 代码 。 有 
的 Bootkit 也 可 以 检测 和 应 付 杀 毒 软件 ,采用 真实 的 主 引 导 区 代码 进行 欺骗 和 伪装 。MBR 
Bootkit 会 在 内 存 中 开辟 一 个 隐蔽 空间 ,用 于 加 载 执行 自身 的 恶意 代码 ,并 常 驻 在 系统 内 存 
中 。Bootkit 会 尽量 避免 在 磁盘 中 产生 程序 文件 ,因而 更 加 难以 检测 。 

基于 可 信 计 算 技 术 的 Bootkit 检测 是 一 种 较为 精确 的 检测 方式 。 系 统 中 安装 了 可 信 计 
算 基 ( TCB ) 检 测 部 件 , 之 后 提取 系统 启动 关键 模块 的 MD5 校 验 值 并 对 数据 进行 度量 ,获取 
系统 可 信和 度 的 度量 值 并 校 验 , 以 实现 系统 启动 流程 的 动态 监测 。 该 检测 方法 能 够 识别 未 知 
的 Bootkit 攻击 。 

图 20 -31 描述 的 是 舱 和 信 了 TPM( 可 信 平 台 模 块 ) 可 信 计 算 基 运行 模块 的 操作 系统 的 引 
导 和 启动 过 程 。 在 可 信 计 算 3.0 体系 中 ,基于 主动 免疫 的 可 信 计 算 技 术 可 以 动态 地 识别 计 
算 机 系统 中 的 “自我 "和 “ 非 我 ” ,并且 免 装 检测 软件 实体 ,实现 了 更 好 的 隐蔽 性 和 安全 性 。 
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图 20-31 基于 可 信和 链 传递 的 内 核 模块 校 验 流程 


本 章 小 结 


本 和 章 介 绍 了 Rootkit 和 Bootkit 的 相关 技术 。 

Rootkit 最 第 用 的 手段 有 : 挂 钧 \ 注 和 人 和 过 滤 , 这 三 种 都 是 非常 传统 的 经历 过 攻防 双方 的 
演进 发 展 和 对 抗 锤炼 的 手段 。 

挂钩 技术 的 基本 思想 是 截获 和 改变 代码 的 处 理 流程 ,包括 了 内 核 态 挂钩 与 用 户 态 挂 钧 
两 个 方面 :内 核 态 挂 钧 有 SSDT Hook IDT Hook .GDT Hook MSR Hook Object Hook .DKOM 等 
方式 ;用 户 态 挂钩 有 IAT/EAT Hook ,消息 报 文 Hook 等 方式 。 而 最 传统 的 mline Hook 既 可 用 
于 内 核 态 也 可 用 于 用 户 态 ,至 于 IVT Hook 更 是 跳出 三 界 之 外 ,不 在 保护 模式 中 了 。 

注 人 技术 则 着 重 于 实现 恶意 模块 回 正 第 进程 的 渗透 ,将 一 个 “ 非 我 ”的 模块 加 载 到 ” 目 
我 "的 进程 空间 中 ,手段 包括 APC 注入 ,注册 表 注 入 .远程 线程 注入 、BHO 方式 .DLL 支持 和 
PE 感染 等 。 这 些 于 段 中 有 的 比较 具有 普 适 性 和 通用 性 ,有 的 则 党 限于 不 少 条 件 。 

不 过 随 着 Windows 内 存 安全 手段 的 加 强 ,无 论 是 挂钩 还 是 注入 ,其 实现 门槛 都 大 大 地 提 
高 了 。 而 当前 Windows 提出 的 驱动 签名 技术 ,更 是 给 过 滤 型 驱动 审 来 了 很 大 的 挑战 。 

Bootkit 是 一 种 更 为 前 期 更 为 底层 的 Rootkit ,其 基本 思想 是 在 操作 系统 加 载 之 前 就 植 人 
恶意 代码 ,并 以 “ 老 资格 ”的 身份 阻 断 杀 毒 软 件 对 自己 的 检测 和 查 杀 。 基 于 主动 免疫 的 可 信 
计算 技术 是 对 Bootkit 的 有 效 威胁 。 
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现代 软件 最 大 的 特点 就 是 通信 ,很 难 想象 一 个 功能 复杂 但 没有 通信 功能 的 软件 怎样 才 
能 正常 工作 并 为 人 们 所 认可 。Windows 系统 中 具有 丰 寅 的 通信 机 制 , 文 持 包括 TCP/IP 文件 
读 写 .串口 .USB 等 多 种 形态 在 内 的 IO 通信 方法 。 

Windows 中 为 了 支持 IO 通信 而 设计 了 乔 干 种 通信 模型 。 设 计 这 些 模型 就 是 为 了 方便 
应 用 进程 和 驾驶 通信 机 制 ,并 且 使 通信 的 效率 尽 可 能 提高 。 这 里 的 IO 不 仅仅 指 TCP/IP 通 
信 ,也 可 以 是 文件 读 写 或 串口 通信 ,因此 可 以 看 作 广 义 的 通信 机 制 。 但 这 里 我 们 主要 以 狭义 
的 TCPAIP 通信 为 例 讲述 通信 模型 和 框架 。 

随 着 通信 模型 和 编程 语言 的 发 展 ,一些 开源 组 织 和 商业 组 织 又 基于 这 些 模型 做 了 二 次 
封装 ,形成 了 一 系列 “深加工 ”的 通信 模型 产品 ,这 些 产 品 更 适合 某 种 语言 . 某 种 场景 或 某 种 
数据 ,更 便于 应 用 进程 使 用 ,这 就 是 通信 框架 。 

本 章 首 先 讲述 Windows 系统 的 三 类 通信 模型 ,让 读者 明白 原生 的 通信 模型 是 什么 样子 
的 ;继而 讲述 “深加工 ”的 通信 框架 ,使 读者 清楚 当前 有 哪些 开源 、 易 用 的 通信 框架 ,它们 都 有 
什么 特点 。 通 信和 框架 包含 两 个 方面 ,一 个 是 框架 ,一 个 是 消息 队列 ,但 我 们 把 它们 都 归 类 为 
软件 栈 中 比 通信 模型 更 上 层 的 通信 框架 。 


21.1 Windows 系统 通信 模型 


Windows 异步 通信 模型 分 为 3 类 共计 6 种, 分别 是 IO 完成 端口 模型 .select 模型 、 
WSAAsyncSelect 模型 WSAEventSelect 模型 .基于 事件 对 象 方式 的 重 琶 LO 模型 和 基于 完成 
例 程 方式 的 重 IO 模型 。 这 6 种 模型 各 有 特点 ,其 中 IO 完成 端口 模型 是 Windows 中 大 
规模 并 发 系统 的 自选 通信 模型 ,也 是 这 些 模型 中 通信 效率 最 高 .并 发 容量 最 高 同时 复杂 度 也 
最 高 的 “二 高 ”模型 ;而 select 模型 、 WSAAsyncSelect 模型 WSAEventSelect 模型 可 以 作为 
select 模型 的 三 个 子 类 ;基于 事件 对 象 方式 的 重大 IO 模型 和 基于 完成 例 程 方式 的 重 码 IO 
模型 又 可 作为 重 苹 IO 模型 的 两 个 分 类 。 

鉴于 LO 完成 端口 模型 的 “三 高 ”特性 ,我 们 首先 来 看 完成 问 口 模型 的 实现 机 制 。 


21.1.1 1/O 完成 端口 模型 


LO 完成 训 口 (InputyOutput Completion Port ,IOCP) 是 Windows 系统 中 最 重要 的 IO 模型， 
也 是 性 能 最 高 的 异步 通信 模型, 它 为 Windows 所 独 有 。 我 们 经 常 使 用 的 ACE (Adaptive 
Communication Environment, 目 适应 通信 和 环境) 框架 、Apache 框架 等 就 是 采用 LO 完成 病 口 实 
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现 的 ,这 种 模型 在 处 理 海量 连接 的 应 用 场景 中 优势 非常 明显 。1O 完成 问 口 本 号 是 一 个 
Windows 内 核对 象 ,对 象 类 型 为 loCompletion, 它 是 在 IO 系统 初始 化 时 被 创建 的 ,本 质 上 是 
一 个 内 核 队 列 ,具有 如 下 特点 : 
> 创建 了 一 个 线程 池 专 门 用 于 从 内 核 队 列 中 获取 网 络 事件 。 
。 线程 池 中 线程 的 数量 国 值 与 CPU 核 数 相 匹 配 , 从 而 使 线程 切换 开销 降 到 最 低 。 
e 传统 的 LO 模型 要 么 是 一 个 IO 对 应 一 个 线程 ( one-thread-per-client ) ,要 么 是 所 有 
LO 对 应 一 个 线程 。 前 者 在 海量 连接 的 情况 下 线程 切换 开销 巨大 ;后 者 造成 大 部 
分 线程 同步 等 待 ,通信 效率 很 低 。1/O 完成 端口 模型 正好 折 中 了 上 述 两 种 策略 。 
> 交 给 LO 线程 的 和 都 是 完成 事件 ,应 用 进程 无 需 采 取 其 他 步骤 进一步 处 理 。 气 成 事件 
结构 中 已 经 携带 了 操作 结果 (例如 已 收 到 的 数据 .数据 长 度 等 ) ,提高 了 异步 性 能 和 开 
发 便捷 性 。 也 就 是 说 ,线程 收 到 IO 完成 通知 的 时 候 , 操 作 结 果 都 已 经 准备 好 了 , 根 
本 不 需要 目 己 册 去 获取 操作 结果 ,服务 非常 周到 。 
Windows API 为 IO 完成 端口 模型 定义 了 者 干 接口 函数 : 
> CreateloCompletionPort: 对 应 了 N tCreateloCompletion 和 NtSetInformationFile 这 两 个 
系统 调用 。 前 者 本 质 上 是 调用 KelInitializeQueue ,作用 是 创建 LO 完成 端口 ,初始 化 线 
程 池 ,通过 参数 指定 池 中 线程 数量 ,并 创建 和 初始 化 VO 完成 闪 口 队列 ;后 者 的 作用 
则 是 关联 文件 对 象 与 刚刚 创建 的 IO 完成 病 口 ,并 注册 文件 对 象 的 完成 事件 通知 
例 程 。 
CetQueuedCompletionstatus : 对 应 了 系统 调用 NtRemoveloCompletion ( 本 质 上 是 调用 
KeRemoveQueue) ,作用 是 从 LO 完成 端口 队列 中 移 除 一 个 IO 完成 事件 ,释放 IRP， 
并 通知 上 层 应 用 线程 取 走 IO 完成 结果 。 
> PostQueuedCompletionStatus: 对 应 了 系统 调用 NtSetloCompletion (本 质 上 是 调用 
KelInsertQueue) ,作用 是 主动 构造 一 个 IO 完成 事件 并 插入 LO 完成 病 口 队列 中 ,多 
用 于 结束 当前 VO 线程 池 中 的 线程 。 
LO 完成 端口 的 运行 流程 如 图 21 -1 所 示 , 上 有 具体 如 下 : 


1. CreateloCompletionPort 
NtCreateloCompletion 


4.GetQueuedCompletionSstatus 


KUQUEU 队 列 
NtsetIntormationFlle | KeRemoveQueue 
Kelnsert Queue 
2. CreateloCompletionPort 
KelnsertQueue 


3. loCompleteRequest 6. PostQueuedCompletionStatus 


21 一 1 IO 完成 端口 全 生命 周期 流程 
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(1) 调用 CreateIoCompletionPort 创建 /O 完成 端口 。 

(2) 调用 CreateloCompletionPort 关联 IO 完成 山口 与 文件 对 象 (文件 对 象 包括 
socket 文件 句柄 等 ) ,使 得 IO 的 文件 对 象 纳入 IO 完成 端口 的 通知 体系 。 

(3) WO 驱动 程序 收 到 了 IO 完成 事件 (这 些 事件 包括 写 操作 已 完成 . 读 操 作 已 接收 到 
数据 并 拷贝 到 了 TIRP 的 缓冲 区 .socket 的 Accept 事件 已 完成 网络 五 元 组 信息 已 拷贝 到 IRP 
的 缓冲 区 等 ) 后 调用 IRP 的 完成 国 数 IoCompleteRequest ,将 IRP 的 缓冲 区 信息 转换 为 IO 完 
成 事件 并 调用 KelInsertQueue 人 队 。 

(4) LO 完成 端口 线程 池 中 的 线程 调用 GetQueuedCompletionStatus ,从 队列 中 获取 L/ 
0 完成 事件 并 投递 给 应 用 进程 。 应 用 进程 中 的 /0 线程 可 能 就 是 1O 完成 端口 线程 池 中 的 

(5) 当 不 再 需要 1/O 完成 端口 时 ,调用 PostQueuedCompletionStatus 回 队 列 中 投递 IO 
完成 事件 ( 特殊 标识 ,使 线程 能 够 知道 这 是 结束 线程 的 操作 ) GetQueuedCompletionStatus 区 
得 0 完成 事件 后 主动 终结 当前 线程 。 当 线程 池 中 所 有 线程 均 终 结 退 出 后 ,线程 池 也 就 终 
结 了 。 

从 上 述 流 程 可 以 看 出 ,IO 完成 端口 模型 本 质 上 是 个 队列 操作 ,入 队 (KeInsertQueue ) 和 
出 队 (KeRemoveOueue ) 操作 贯 穿 始 终 。 

在 实际 系统 中 ,线程 池 中 的 线程 数量 也 可 以 不 完全 与 CPU 核 (逻辑 核 ) 数 一 致 。 实 验 表 
明 : 当 线程 数量 = CPU 核 数 x2 +2 时 ,线程 切换 开销 最 低 。 而 线程 池 中 也 不 是 每 时 每 刻 都 
保持 规定 国 值 数 量 的 线程 ,例如 茶 线 程 被 阻 暑 ,IO 完成 器 口 线程 调度 硕 会 检测 到 阻塞 并 开 
局 新 线程 继续 调用 GetQueuedCompletionStatus, 当 阻 旱 线 程 被 唤醒 后 线程 池 中 的 线程 数 就 
比 规定 国 值 多 了 1 个 。 但 这 并 没有 什么 大 碍 ,下 次 其 他 线程 被 阻 塞 时 线程 调度 右 不 再 创建 
新 线程 就 是 了 。 因 此 线程 数量 阔 值 是 个 动态 的 建议 值 , 并 不 是 不 能 逾越 的 。 

下 面 我 们 以 socket 通信 中 的 TCP 监听 和 接收 数据 为 例 来 讲解 VO 完成 病 口 模型 的 使 
用 ,如 图 21 -2 所 示 。 

(1) 开启 服务 病 主 线程 ,创建 IO 完成 端口 并 初始 化 ,由 CreateloCompletionStatus 实现 。 

(2) 主线 程 初始 化 socket ,并 调用 Listen 接口 监听 ,完成 TCP 监听 socket 的 初始 化 ,并 将 
创建 的 监听 socket 与 VO 完成 端口 关联 绑 定 ,由 CreateloCompletionPort 实现 。 

(3) 在 该 IO 完成 端口 上 投递 TCP 监听 端口 的 AcceptEx 请 求 。 

> 所谓" 投递”, 其 实 就 是 调用 AcceptEx、WSARecv 等 图 数 将 请 求 与 socket 绑 定 。 

> AcceptEx 是 Windows 专 有 的 网 络 操作 扩展 图 数 ( 在 mswsock. dl 中 实现 ) ,而 不 是 

WinSock2 提供 的 ,AcceptEx 与 WinSock2 的 Accept 函数 相 比 具有 更 高 的 效率 ,因为 在 
发 出 AcceptEx 调用 的 时 候 socket 已 经 建立 好 了 ,而 Accept 却 需要 线程 目 己 创建 
socket。Windows 提供 的 这 个 困 数 方便 了 我 们 使 用 重 登 IO 机 制 。 

> 重 琶 IO 机 制 是 通过 重 革 结构 Overlapped 实现 的 ,Windows 中 的 异步 IO 通信 都 是 通 
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唯一 的 线程 ， 局 动 数 个 Worker 
线程 ， 用 来 接收 网 络 操作 完成 的 通知 
_WorkerThread() 


初始 化 socket 库 
_LoadesocKketLibf) 


检查 完成 端口 的 状态 是否 


有 网 络 操作 到 达 
服务 端 初 如 化 GetQueuedCompletionStatus 
_Start() 


判断 网 络 操作 的 其 型 分 支 一 : 如 来 是 Accep( 探 作 


建立 完成 端口 及 配置 参数 
_InltOCPO) 


Swiltch(OQpType) _DoAccpet() 


分 支 二 : 如 果 是 Recv 操 作 将 新 连 入 的 socket 
_DoRecv') 和 完成 端口 绑 定 


初始 化 socket 的 一 系列 参数 
_1nitListenSocketO) 


在 新 连 入 的 socket 上 投递 
处 理 接收 到 的 数据 第 一 个 WSARecv 请 求 
_PostRecv!() 


将 ListenSocket 利 完成 端口 绑 定 


投递 多 个 AcceptEx 异 步 请 求 
_PostAccept() 在 这 个 新 socket 上 投递 在 ListenSocket 上 投效 
下 一 个 WSARecv 请 求 下 一 个 AcceptEx 


_PostReev') _PostRecv() 


主线 程 管理 
_Worker 线 程 人 处 理 WO 事 件 


用 户 是 否 停止 ? 


通信 结束 ,通知 Worker 线 程 们 退出 


PostQueuedCompletionStatus() EE 


| 结束 ”站 
stop() } 


21-2 基于 完成 端口 的 网 络 监听 与 收 包 流程 


> 所 请 “重奏 "是 指 执行 VO 请 求 的 时 间 与 线程 执行 其 他 任务 的 时 间 是 重 著 的 
(overlapped ) ,几乎 所 有 Windows 异步 网 络 操作 接口 如 WSASend .WSARecv 等 都 以 重 
登 结 构 为 参数 。 重 县 结 构 中 携 市 了 网 络 操 作 的 标识 ,方便 区 分 异步 操作 对 应 了 哪个 
socket 的 哪 一 次 请 求 。 

> 重合 结构 具体 如 下 所 未 : 


typedef struct OVERLAPPEDI 

DWORD Internal; 

DWORD InternalHigh; 

DWORD Offset,; 

DWORD OffsetHigh; 

HANDLE hEvent;  // 核 心 参数 , 这 个 就 是 连接 异步 I/0O 和 应 用 程序 的 桥梁 
}OVERLAPPED, * LPOVERLAPPED 


(4) 等 待 TCP 客户 端的 连接 请 求 。 
($5) 线程 池 中 的 线程 调用 GetQueuedCompletionStatus 获取 网 络 完 成 事件 。 当 没有 完成 
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事件 时 线程 阻塞 ; 当 发 生 了 网 络 完 成 事件 时 线程 被 唤醒 ,并 判断 具体 是 哪 种 事件 : 
> 若 为 TCP 客户 端的 连接 请 求 , 则 工作 线程 调用 Accept 函数 响应 该 请 求 。 新 连 人 的 
socket 作为 通信 socket 与 IO 完成 决口 关联 ,并 在 该 通信 socket 上 投递 TCP 报 文 接收 
的 WSARecv 请 求 ,表明 已 经 准备 好 接收 数据 了 ,同时 也 在 TCP 监听 socket 上 再 次 投 
递 一 个 AcceptEx 请 求 ( 少 一 个 补 一 个 )。 
> 厂 为 TCP 连接 的 Recv 请 求 , 则 证 明 网 络 上 有 数据 得 读 取 。 工 作 线 程 处 理 收 到 的 数据 
并 在 通信 socket 上 再 投递 一 个 WSARecv 请 求 ( 少 一 个 补 一 个 )。 
(6) 和 震 需 要 终止 /完成 痕 口 , 则 通过 PostQueuedCompletionStatus 回 线程 池 投 递 特殊 标识 
消息 , 池 中 各 线程 通过 CetQueuedCompletionStatus 获取 到 特殊 标识 消息 从 而 终结 当前 线程 。 
LO 完成 交口 模型 使 用 少量 的 线程 处 理 大 量 的 并 发 通信 ,这 也 要 求 IO 线程 尽量 不 要 
有 阻塞 行为 。 因 为 线程 池 中 的 一 个 WO 线程 往往 对 应 了 很 多 条 并 发 通信 和 链 路 ,在 某 个 线程 
阻塞 , 则 该 线程 对 应 的 所 有 链 路 必然 阻塞 ,从 而 造成 不 可 预计 的 后 果 。 


21.1.2 select 模型 


select 图 数 也 叫 多 路 分 离 评 数 ,建立 在 这 个 分 离 国 数 基础 之 上 的 VO 模型 就 称 为 多 路 复 
用 (select) 模型 。 在 ACE 框架 中 ,Windows 版 本 的 反应 堆 ( Reactor) 模 型 就 是 采用 select 机 制 
实现 的 (Linux 下 采用 epoll 机 制 )。select 模型 通过 一 个 fd_set 集合 管理 所 有 socket, 其 本 质 
上 是 一 个 轮 询 机 制 ,一 个 select 线程 可 以 处 理 多 个 socket 请 求 ,工作 过 程 如 下 : 

(1) 应 用 进程 初始 化 fd_set 集合 并 调用 select 图 数 。 

(2) select 函数 对 fd_set 集合 中 的 所 有 socket 轮 询 检 查 ,如 果 革 个 socket 状态 有 改变 , 则 
将 有 变化 的 socket 记录 下 来 。 

(3) select 轮 询 完 成 ,将 记录 的 状态 有 变化 的 socket 返回 给 应 用 进程 ,应 用 进程 根据 
socket 关联 的 上 下 文 获 取 发 生 的 具体 事件 和 IZO 数据 。 

从 上 述 步 又 我 们 发 现 ,select 模型 本 质 上 是 同步 的 ,模型 循环 等 繁 事 件 的 发 生 , 而 不 是 像 
IO 完成 端口 模型 那样 “被 通知 ”。 前 者 主动 ,后 者 被 动 。 

select 妆 数 的 原型 如 下 所 示 : 


int select{( 


Int nfds, // 传 入 0 即 可 
fd set*readfds, // 可 读 socket 集合 
fd set *writefds, // 可 写 socket 集合 


fd set*exceptfds, / /错误 socket 集合 
const struct timeval *timeout);  //select 困 数 等 待 时 间 


可 网 ,select 模型 将 fd_set 集合 分 为 三 类 ,. 读 、 写 .人 箔 误 ( 含 币 外 数据 ) ,而 TCP 的 Accept 
也 被 认为 是 读 操 作 的 一 种 而 归 入 读 集 合 里 面 。 受 限于 {fd_set 集合 的 最 大 数量 ,select 模型 最 
多 文 持 1 024 个 并 发 的 连接 。fd_set 集合 也 是 个 很 简单 的 数据 结构 ,如 下 所 示 : 


#ifndef FD SETSIZE 
#define FD SETSIZE bd 
#endif /* FD SETSIZE* / 
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typedef struct fd set { 


u int fd count; //fd set 中 socket 的 数量 
socket fd array[ FD SETSIZE]; //socket 数组 
}fd set 


select 困 数 返回 时 ,fd_set 中 存放 着 状 态 发 生 改变 的 socket ,供应 用 进程 处 理 
从 图 21 一 3 可 以 看 出 ,select 模型 是 存在 阻 -一 
[用 户 线程 
塞 的 (等 待 数据 到 达 ) ,但 不 是 一 个 socket 一 个 
socket 地 等 ,而 是 一 口气 等 每 fd_set 集合 中 所 有 监 议 socket 站 Select 
的 socket。 只 有 集合 中 所 有 socket 的 状态 都 没 ”线程 阻塞 socket 可 读 Bi 


有 改变 时 线程 才 阻 塞 。 read 请 求 mm 由 
fd_set 集合 也 可 以 只 保存 一 个 socket ,在 一 人 


些 特殊 场景 下 ,我们 需要 一 个 socket 对 应 一 个 | | 
线程 ,这 样 可 以 随意 阻塞 /0 线程 。 这 种 情况 站 
下 select 模型 就 是 个 很 好 的 选择 ,这 也 是 它 与 IO 完成 关口 模型 相 比 的 特殊 之 处 。 但 是 
select 模型 没有 像 IO 完成 病 口 模型 那样 “服务 到 家 ”, 侦 测 到 状态 改变 后 ,还 需要 应 用 进程 
日 己 调 用 accept 或 recv 接口 来 进一步 处 理 收 到 的 连接 请 求 或 数据 。 
当然 select 模型 的 不 足 之 处 也 是 很 明显 的 : 
> 每 次 select 国 数 执行 时 都 需要 将 公 _set 从 用 户 态 空间 搁 贝 到 内 核 态 空间 ,有 结果 需要 
返回 时 由 将 内 核 态 中 的 f_set 找 贝 到 用 户 态 的 出 参 中 。 当 这 种 动作 非常 频繁 时 , 搁 
由 和 切换 的 开销 不 可 忽略 。 
> select 困 数 文 持 的 fd_set 集合 数 最 大 只 有 1 024 , 即 最 多 只 能 轮 询 1 024 个 socket ,这 个 
数量 远 十 小 于 VO 完成 决口 文 持 的 socket 数 。fd_set 集合 数 的 原始 定义 只 有 64 ,可 以 
通过 重 定义 FD_SETSIZE 宏 来 扩展 最 大 集合 数 ,但 最 大 也 只 能 扩展 到 1 024 。 
> fd_set 集合 数 比 较 大 时 ,select 图 数 的 轮 询 开销 不 可 忽略 。 
除了 select 模型 ,Windows 还 文 持 WSAEventSelect 和 WSAAsyncSelect 两 种 “类 select 模 
型 ” ,前 者 也 叫 * 事 件 选择 模型 ", 后 者 则 被 称 为 "异步 选择 模型 "。 
1 ) 事件 选择 模型 WSAEventSelect 
事件 选择 模型 基于 事件 通知 ,根据 事件 是 否 被 触发 来 进行 相应 处 理 。 这 些 事件 类 型 
包括 : 
> FD_READ .socket 可 读 通 知 . 
> FD_WRITE ,socket 可 写 通 知 ， 
> FD_OOB : 带 外 数据 到 达 通 知 ; 
> FD_ACCEPT:TCP 服务 端 已 接受 了 本 地 客户 端的 连接 请 求 ; 
> FD_CONNECT:TCP 客户 端 问 本 地 服务 端 发 来 了 连接 请 求 ; 
> FD_CLOSE :socket 关闭 通知 ; 
> FD Q0S:00S 变化 的 通知 ; 
> FD_ GROUP QOS :组 QOS 变化 的 通知 ; 
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> FD_ ROUTING _JINTERFACE_CHANGE :与 路 由 器 的 接口 发 生变 化 的 通知 ; 

> FD _ ADDRESS LIST_CHANGE: 本 地 地 址 列表 发 生变 化 的 通知 ; 

> FD_ALL_EVENTS :代表 所 有 事件 类 型 。 

事件 选择 模型 的 事件 关联 注册 困 数 是 WSAEventSelect, 事件 重 置 图 数 为 
WSAResetEvent, 事件 分 离 函数 是 WSAWaitForMultipleEvents, 事件 关闭 函数 则 为 
WSACloseEvent。 事 件 选择 模型 本 质 上 还 是 轮 询 等 竺 ,也 受 限 于 socket 的 最 大 处 理 数量 (64 
个 ) , 且 数 量 无 法 更 改 。 

事件 选择 模型 的 运行 流程 如 下 : 

(1) 创建 用 于 存放 所 有 事件 对 象 的 数组 。 

(2) 使 用 WSACreateEvent 创建 一 个 事件 对 象 ( 类 型 如 上 ) ,并 将 事件 对 象 添 加 到 数组 。 

(3) 使 用 WSAEventSelect 将 socket 与 上 述 事件 对 象 关 联 起 来 。 

(4) 调用 WSAWaitForMultipleEvents 等 符 网 络 事件 发 生 。 

(5) 事件 发 生 后 使 用 WSAEnumNetworkEvents 查询 具体 发 生 了 哪 种 类 型 的 事件 。 

(6) 进 一 步 处 理事 件 ( 如 接受 连接 .获取 数据 等 ) ,并 重复 执行 步骤 (4) 和 (5 ) 。 

2) 异步 选择 模型 WSA AsyncSelect 

异步 选择 模型 与 事件 选择 模型 很 相似 ,后 者 在 有 事件 发 生 时 激活 一 个 事件 对 象 ,而 前 者 
则 是 发 送 一 个 消息 给 指定 的 窗口 ,应 用 进程 在 窗口 啊 应 例 程 中 处 理 这 些 消息 。 

异步 选择 模型 支持 的 网 络 事件 类 型 与 事件 选择 模型 定义 的 事件 类 型 完全 一 致 。 不 过 ， 
由 于 在 异步 选择 模型 中 消息 是 投递 到 窗口 上 的 ,因此 要 求 应 用 进程 必须 具有 窗口 。 
WSAAsyncSelect 本 质 上 是 利用 Windows 窗口 消息 队列 机 制 来 通知 我 们 设 定 的 窗口 过 程 
例 程 。 


21.1.3 重 壬 |/O 模型 


重 二 /0 模型 使 用 重 炙 数据 结构 (WSAOverlapped) 来 投递 WO 操作 ,可 以 一 次 投递 多 个 
LO 操作 ,并 具有 很 高 的 读 写 (收发 ) 并 发 效率 。 与 select 模型 相 比 , 重 登 IO 模型 可 以 将 读 
与 结果 下 接 拷贝 到 用 户 进程 的 缓冲 区 而 不 需要 另外 调用 接口 来 进一步 接收 (RECYV ) 或 接受 
(ACCEPT) 。 也 就 是 说 , 当 重 全 IO 模型 收 到 恋 操 作 时 ,其 收 到 的 结果 数据 已 经 存在 于 用 户 

LO 完成 端口 模型 中 已 经 对 重合 第 构 做 了 描述 ,这 里 要 强调 的 是 存在 两 种 方法 管理 重 
登 /0 的 完成 情况 :事件 对 象 方 式 和 完成 例 程 方式 。 其 实 VO 完成 端口 也 是 基于 重合 结构 
的 ,但 一 般 将 VO 完成 端口 单独 作为 一 类 模型 。 

1. 事件 对 象 方式 

事件 对 象 方式 要 求 将 VO 事件 与 重 琶 结构 关联 在 一 起 ,同时 据 痉 WinSock2 库 中 的 
send sendto .recy 等 接口 转 而 使 用 Windows 原生 的 WSARecv、WSASend 等 接口 ,因为 只 有 后 
者 才能 将 重叠 结构 作为 参数 传递 进 内 核 。 


398 


WSARecv 函数 原型 如 下 所 示 ,其 倒数 第 二 个 参数 即 为 重生 结构 : 


int WSArecyv ( 

SOCKET 5s, / /投递 这 个 操作 的 socket 

LPWSABUF lpBuffer, / /接收 缓冲 区 , 与 Recv 函数 不 同 

LPDWORD lpNumberOfBytesRecvd, // 如 果 接收 操作 立即 完成， 这 里 会 返回 函数 调用 

LPDWORD lpFlags, // 默 认为 0 

LPWSAOVERLAPPER 1poverlapper,，// 绑 定 的 重 赤 结构 

LPWSAOVERLAPPER COMPLETION ROUTINE lpCompletionRoutine  // 一 个 回调 
)s 


重 至 IO 模型 采用 WSAWaitForMultipleEvents 方法 来 等 待 需要 的 激活 事件 ,这 个 函数 最 
多 只 支持 64 个 事件 ,也 就 是 说 一 个 重 IO 模型 最 多 支持 64 个 socket。 当 然 可 以 采用 多 线程 
的 方式 来 解决 上 述 限 制 。 重 羞 结 构 中 隐 舍 着 IO 结果 ,因此 还 需要 WSAGetOverlappedResult 
方法 来 查询 操作 结 

我 们 仍 以 TCP 服务 端的 连接 请 求 接 受 和 数据 接收 为 例 来 讲述 基于 事件 对 象 方式 的 

(1) 创建 socket 并 进行 服务 端 监 听 ( 监听 socket ) 。 

(2) 接受 客户 端的 连接 请 求 。 

(3) 为 接受 的 socket( 通信 socket) 创 建 重 堆 结构 ,并 为 之 分 配 事件 句柄 (关联 IO 事件 ) 。 

(4) 在 通信 socket 上 投递 WSARecv 操作 ,并 将 重 三 结 构 作 为 参数 传递 进去 。 

(5) 调用 WSAWaitForMultipleEvents 函数 等 待 关联 的 IO 事件 被 激活 。 

(6) 和 若 有 LO 事件 激活 , 则 通过 WSAGetOverlappedResult 隆 数 获取 完成 的 重 芭 结构 ， 
以 便 将 LO 结果 传递 给 应 用 层 。 

(7) 调用 WSAResetEvent 咀 数 将 事件 重 置 。 

(8) 在 通信 socket 上 再 次 投递 WSARecv 操作 。 

(9) 重复 执行 步骤 (5) ~ (8) 。 

2. 完成 例 程 方式 

所 请 完成 例 程 ,简单 来 说 就 是 回调 聘 数 。 我 们 设置 事件 处 理 回 调 消 数 到 模型 中 ， 和 

控 的 VO 事件 发 生 时 ,回调 消 数 会 被 模型 调用 ,只 需要 实现 回调 也 数 中 的 处 理 逻 辑 即 可 。 
成 例 程 方式 与 事件 对 象 方式 在 性 能 上 差不多 ,但 前 者 不 受制 于 64 个 等 待 事件 的 限制 。 

回调 消 数 的 原型 如 下 所 示 : 


Void CALLBACK CompletionRoutine ( 


DWORD dwError, / /重合 操作 2 

DWORD cbTransferred., 1 / 实 实际 传输 的 字 节 

LPWSAOVERLAPPED LpPOverlapped， // 重 全 结构 

DWORD dwFlags / /返回 操作 结束 时 可 能 用 的 标志 ,不 常用 


); 

也 就 是 说 ,我 们 要 提前 设置 这 样 一 个 回调 函数 到 模型 中 。 在 前 文 介绍 事件 对 和 象 方式 的 
时 候 , WSARecv 函数 的 最 后 一 个 参数 就 是 一 个 函数 指针 ,这 其 实 就 是 完成 例 程 。Windows 在 
设计 这 些 接 口 的 时 候 就 将 重 1/0 的 两 种 情况 都 考虑 到 了 。 

基于 回调 函数 的 方法 和 基于 事件 对 象 的 方法 在 使 用 步骤 上 基本 一 致 ,只 是 前 者 在 投递 
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WSARecv 的 时 候 要 将 回调 函数 设置 进去 ,并 且 不 需要 设置 事件 对 象 。 

完成 例 程 方式 的 原理 是 APC( 异 步 过 程 调 用 ) 机 制 。 我 们 在 前 文中 有 过 摘 述 ,应 用 进程 
(线程 ) 设 置 用 户 态 的 回调 指针 ,借用 APC 机 制 保存 到 APC 数据 结构 里 ,APC 结构 通过 队列 
方式 被 编排 到 每 个 KTHREAD 中 ,在 线程 切换 时 这 些 APC 会 得 到 执行 ,也 就 是 回调 函数 会 被 
执行 。 

在 IO 驱动 程序 中 ,每 次 IRP 完成 ,都 会 通过 IoCompleteRequest 国 数 将 本 次 IO 操作 的 
结果 挂 到 对 应 线程 KTHREAD 的 APC 队列 中 。 一 个 生产 者 ,一 个 消费 者 ,如 此 构成 了 完成 例 
程 的 基本 循环 机 制 。 


21.2 通信 框架 


通信 和 框 染 是 对 通信 模型 的 二 次 封 浴 ,目的 是 便于 不 同 的 语言 使 用 ,并 且 降 低 使 用 门槛 ， 
方便 应 用 程序 开发 。 至 于 通信 框架 是 否 就 比 通信 模型 更 易 上 手 门槛 更 低 , 这 也 是 多 年 来 业 
界 一 旦 有 和 争论 的 地 方 。 当 然 ,仁者 见 仁 智者 见 入 ,无 论 怎 样 通信 框架 已 经 深 深 融入 我 们 的 开 
发 中 了 ,因为 总 体 来 讲 通 信和 框架 确实 要 比 通信 模型 更 友好 、 更 适合 大 规模 应 用 。 

目前 市 面 上 的 通信 框 染 百 家 和 争鸣 ,有 针对 音节 后 通信 的 框架 ,也 有 基于 分 布 式 的 框 染 ; 
有 针对 C/C++ 语言 的 ,也 有 针对 Java 或 脚本 语言 的 ;有 开源 的 ,也 有 闭 源 的 ;有 社区 贡献 共 
享 的 ,也 有 商用 开发 和 付费 使 用 的 ;有 基于 TCPZP 协议 的 ,也 有 针对 非 TCP/P 协议 的 ;有 针 
对 专门 应 用 场景 的 (例如 视频 会 议 ) ,但 更 多 的 是 基于 通用 场景 的 。 但 无 论 直 样 , 绝 大 多 数 通 
信 框 架 都 遵循 某 种 事件 多 路 分 离 模型 ,例如 IOCP 模型 epoll 模型 .select 模型 等 ,在 此 基础 
上 实现 了 通信 的 事件 通知 和 数据 读 写 处 理 。 


21.2.1 ACE 框架 


ACE(Adaptive Communication Environment ,日 适应 通信 环境 ) 框 架 是 Windows 下 处 理 高 
并 发 的 首选 框架 。 但 ACE 也 是 一 个 高 复杂 度 和 比较 腕 肿 的 重量 级 通用 框架 ,因为 它 不 仅仅 
包含 了 1O 通信 相关 的 组 件 ,还 包括 了 并 发 与 同步 .内存 管理 .定时 带 管 理 \ 信 号 通知 线程 
管理 ,文件 管理 ,软件 配置 管 理 容 带 管 理 等 多 种 组 件 ,并 且 基 容 Windows 和 Linux 两 套 操作 
系统 (支持 POSIX 语义 的 操作 ) 。 
ACE 框架 是 由 C++ 语言 开发 的 路 平台 开源 框架 ,由 操作 系统 适 配 层 .C++ 封装 适 配 层 、 
框架 和 网 络 服务 层 构成 ,如 图 21 -4 所 示 。 
> 操作 系统 适 配 层 :提供 操作 系统 无 关 性 文 持 ,ACE 框架 的 使 用 者 只 要 很 少 的 工作 量 囊 
可 以 切换 操作 系统 平台 。 操 作 系 统 适 配 是 由 框架 的 ACE_0S 类 实现 的 。 
> C++ 封闭 适 配 层 :包括 一 些 C++ 包 交 类 ,用 于 构建 可 移植 且 类 型 安全 的 C++ 应 用 和 事 
件 多 路 分 离 机 制 等 ,其 中 包括 : 
。 并 发 与 同步 类 对 操作 系统 多 线程 API 进行 了 抽象 封装 ; 
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21-4 ACE 框架 的 层次 (图 片 来 自 ACE 官网 ) 


e IPC 类 一 一 支持 socket 接口 .命名 管道 .消息 队列 等 ; 

e 内 存 管 理 类 一 一 文 持 内 存 分 配 和 释放 管理 ; 

。 定时 顺 类 一 一 支持 定时 需 调 度 和 取消 ,并 且 也 封装 了 高 分 辨 率 的 定时 怖 ; 

se 和 容 角 类 一 文 持 STL 风格 容 需 ,如 Map 、List 等 ; 

。 线程 管理 类 一 一 文 持 创建 和 终止 线程 , 文 持 线程 局 部 存储 机 制 。 

> 框架 和 网 络 服务 层 :这 是 基于 操作 系统 的 通信 模型 构筑 和 封 闻 的 一 层 , 包 括 : 

。 事件 处 理 组 件 一 一 文 持 基 于 IO 通信 定时 需 、 信 号 和 同步 等 事件 的 处 理 融 ; 

。 网 络 连接 和 服务 初始 化 组 件 一 一 文 持 连接 硕 ,接受 右 组 件 ,用 于 TCP 握手 协商 ,这 
样 规划 便于 握手 和 连接 通信 的 去 耘 合 ; 

se 服务 配置 组 件 ( ACE Service Configurator ) 
动态 局 动 , 挂 起 和 配置 ; 

。 流 组 件 (ACE Stream) 一 一 用 于 分 层 软 件 栈 的 开发 , 文 持 针对 软件 栈 中 每 一 层 中 流 
经 的 数据 进行 修改 和 传递 。 

ACE 框架 实在 是 太 庞大 了 ,限于 篇 幅 和 主线 ,本 章 只 介绍 ACE 框架 的 IO 通信 部 分 。 

操作 系统 的 IO 通信 可 分 为 阻塞 . 非 阻 塞 同 步 . 非 阻塞 异步 三 种 方式 , 相 较 而 言 , 非 阻塞 


对 于 安 效 或 运行 时 配置 的 软件 文 持 


异步 方式 的 性 能 和 扩展 性 最 好 ,而 目前 大 部 分 通信 场景 也 都 是 文 持 这 种 方式 的 ,ACE 框架 的 
通信 组 件 束 是 非 阻 蜂 异步 VO 组 件 。 


非 阻塞 异步 方式 的 LO 通信 最 重要 的 部 件 就 是 事件 多 路 分 离 句 (Event Demultiplexer) 。 


所 谓 事件 多 路 分 离 就 是 将 来 自 于 多 个 事件 源 (socket) 的 IO 事件 分 离 出 来 并 派发 到 对 应 的 
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事件 处 理 顺 (Event Handler, 即 应 用 进程 中 的 IO 线程 执行 的 函数 ) 。 

ACE 框 氏 中 有 两 个 基础 设施 负责 多 路 分 离 : 前 摄 硕 (Proactor) 和 反应 堆 (Reactor) 。 前 
者 基于 IOCP ,多 用 于 Windows 下 的 IO 高 并 发 场景 ;后 者 基于 epoll, 多 见于 Linux 下 的 高 并 
发 场景 。 但 实际 上 在 Linux 下 也 有 基于 epoll 模型 实现 的 前 摄 占 , 但 其 效率 不 会 超过 反应 堆 ， 
因此 这 里 我 们 只 介绍 基于 IOCP 的 前 摄 希 和 基于 epoll 的 反应 堆 。 

前 摄 器 

前 摄 融 是 ACE 框架 中 的 异步 网 络 处 理 硕 ,其 本 质 是 完成 事件 + 多 路 分 离 , 其 依赖 的 模 

型 是 IOCP。 前 摄 右 的 运行 框 染 如 图 21 -5S 所 示 。 


ACE_Asynch_Read_Stream 


ACE_Asynch_Write_Stream ACE_Service_Handler 


handje_read_streamf) ACE_Asynch_Result 
open() read() write() ACE_Asynch_Result 


handle_write_stream() 


ACE_Proactor Proactor_run_event_loop0 分 发 IO 完成 事件 


注册 事件 | handle_connectO) handle_accept() 


ACE_Asynch_Connector ACE_Asynch_Acceptor |AcceptEx() 
valildate_connection() validate_connection() 
make_handler() make_handler() 


图 21 一 5 前 摄 器 运行 框架 

前 摄 各 运 行 框 架 由 以 下 几 个 组 件 构 成 ( 仅 以 TCP 通信 方式 为 例 ) : 

> ACE_Asynch_Connector :连接 需 , 用 于 TCP 客户 并 问 服务 端 发 起 连接 请 求 。 这 是 一 
个 模板 类 ,指定 了 它 的 派生 类 的 服务 处 理 需 ACE_Service_Handler 的 派生 类 类 型 。 

> ACE_Asynch_Acceptor :接受 器 ,用 于 TCP 服务 端 接受 客户 端 发 起 的 连接 请 求 。 这 也 
是 一 个 模板 类 ,指定 了 它 的 派生 类 的 服务 处 理 硕 ACE_Service_Handler 的 派生 类 

> ACE_Asynch_Read_Stream :用 于 发 起 异步 庶 操 作 。 

> ACE_Asynch_Write_Steam :用 于 发 起 异步 写 操 作 。 

> ACE _Service_ Handler :服务 处 理 硕 ,包含 了 一 些 回 调 曙 数 , 当 LO 操作 完成 后 会 目 动 
触发 对 应 的 回调 函数 。 这 是 一 个 工厂 类 ,可 以 基于 该 工厂 类 实现 日 己 的 子 类 。 

> ACE_Asynch_Result: 表 示 针 对 每 个 异步 操作 的 操作 结果 

> ACE_Proactor :ACE 前 摄 器 ,用 于 循环 执行 多 路 分 离 ， Pe Windows 下 基于 LO 完 
成 端口 模型 的 ACE_WIN32_Proactor 类 ,以 及 在 POSIX 系统 上 的 ACE_POSIX_Proactor 
类 ,例如 Linux 中 基于 epoll 模型 的 前 摄 冀 。 

ACE_Asynch_Connector 除了 提供 open( 与 前 摄 顺 绑 定 ) .conneet( 回 TCP 服务 端 发 起 建 
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立 连接 请 求 ) .cancel( 关闭 连接 ) 等 这 些 基本 方法 外 ,还 提供 了 三 个 主要 方法 ,它们 也 都 是 连 
接 时 被 前 摄 右 回调 的 方法 ,如 下 所 示 : 


make handler (void); 
/ /创建 一 个 新 的 服务 处 理 器 ACE_Service_Handler, 其 派生 类 必须 重新 实现 这 个 方法 
validate connection (const ACE Asynch Connect::Resulteg result, 
const ACE INET Addr &remote, 
const ACE INET Addr& local) 
/ /连接 即将 建立 成 功 时 前 摄 器 调用 该 函数 , 其 人 参 带 有 TCP 的 客户 端 和 服务 端的 四 元 组 信息 (客户 端 地 址 .客户 
// 端 端口 号 ,服务 端 地 址 、 服 务 端 端口 号 ) ,其 派生 类 必须 重新 实现 这 个 方法 
handle connect (const ACE Asynch Connect::Result &result) 


// 连 接 建立 成 功 后 调用 该 方法 


ACE Asynch Acceptor = ACE_Asynch_Connector 大 致 相同 除了 提供 open( 与 前 摄 器 绑 
定 ) ,accept( 接 受 TCP 客户 闹 发 来 的 建立 连接 的 请 求 ) .cancel( 关闭 连接 ) 等 基本 方法 外 ,也 
定义 了 三 个 连接 时 被 前 摄 右 回调 的 方法 ,其 派生 类 也 必须 重新 实现 这 三 个 模板 方法 ,如 下 
所 未 : 


make handler (void) 

/ /创建 一 个 新 的 服务 处 理 器 ACE Service Handler 

validate connection (const ACE Asynch Accept::Resultg& result, 
const ACE INET Addr &remote, 
const ACE INET Addr &local) 

/ /连接 即将 建立 成 功 时 用 来 回调 TCP 四 元 组 

handle accept (const ACE Asynch Accept::Result gresult) 

/ /连接 建立 成 功 后 调用 该 方法 


ACE 框架 中 的 连接 絮 和 接受 颖 二 者 本 和 对 就 可 以 组 成 一 个 框架 
而 前 摄 占 被 纳入 了 这 个 框架 后 更 加 方便 了 通信 开发 。 
ACE_Asvnch_Read_Stream 是 前 摄 器 的 读 操 作 类 ,提供 了 如 下 基本 方法 : 


open (const ACE Handler: :Proxy Ptr &handjer proxy, 
ACE HANDLE handle, 
const void* completion key， 
ACE Proactor *proactor) 
/ /将 服务 处 理 器 ,socket 句柄 和 前 摄 器 关联 起 来 
read (ACE Message Block &message block, 
size t bytes to read, 
unsigned long offset =0, 
unsigned long offset high =0, 
const volid* act =0, 
int priority =0, 
int signal number =ACE SIGRTMIN) 


/ /发 起 异步 读 操作 ,注意 ,这 里 仅仅 是 发 起 操作 而 不 是 读 到 结果 


ACE_Asynch_Write_Stream 是 前 摄 右 的 写 操 作 类 ,提供 了 如 下 基本 方法 . 


open (ACE Handler thandler, 
ACE HANDLE handle =ACE INVALID HANDLE, 
const void* completion key =0, 
ACE Proactor *proactor =0) 
/ /将 服务 处 理 器 、socket 句柄 和 前 摄 器 关联 起 来 
write (ACE Message Block &message block, 
31ze t bytes to write, 
Const void * act =0, 
int priority =0, 
int signal number =ACE SIGRTMIN) 
/ /发 起 异步 写 操作 , 这 里 也 仅仅 是 发 起 操作 , 而 写 的 结果 要 通过 服务 处 理 器 的 回调 方法 才能 获知 


Connect-Accept 框架 ， 
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ACE_Service_Handler 是 服务 处 理 需 基 类 ,其 派生 类 至 少 要 实现 以 下 三 个 方法 : 


open (ACE HANDLE new handle, 
ACE Message Block tmessage block) z 
/ /连接 器 或 接受 器 的 make handler 方法 被 调用 完 后 ,该 服务 处 理 器 派生 类 的 open 方法 会 被 调用 ,在 该 方法 
// 中 可 以 初始 化 读 / 写 操作 类 等 
handle read stream(const ACE Asynch Read Stream: :Result &result) 
/ /异步 读 结果 回调 函数 , 其 参数 就 是 读 操 作 完 成 后 的 结果 , 例如 数据 指针 数据 长 度 等 
handle write stream(const ACE Asynch Write Stream: :Result gresult) 


/ /异步 写 结果 回调 函数 , 其 参数 也 是 操作 完成 后 的 结果 
ACE_Asynch_Result 本 质 上 代表 了 一 个 重 酸 结构 ,我 们 在 服务 处 理 顶 类 的 异步 谈 写 回调 
国 数 中 的 参数 都 是 ACE_Asynch_Result 类 型 的 。 
ACE_Proactor 是 ACE 前 摄 器 的 基 类 ,提供 如 下 主要 方法 : 
proactor run eVent loop (PROACTOR EVENT HOOK =0) 
/ /开启 前 摄 融 事件 分 离线 程 ,针对 而 言 ,就 是 不 断 循环 调用 GetQueuedCcompletionStatus 来 获取 重 全 结构 
/ /并 转换 成 ACE Asynch Result 派生 类 型 (例如 ACE _ WIN32 Asynch Result) ,投递 给 服务 处 理 器 的 结果 
// 回 调 函 数 


proactor end event loop (void) 


/ /结束 前 摄 器 事件 分 离线 程 
前 摄 玫 运 行 框 架 下 TCP 客户 端 与 服务 问 的 协作 如 图 21 -6 和 图 21 一 7 所 示 。 


ALE Asynch_ I 0 ALE Asynch ALE Asynch 
乡 定 前 摄 器 open 
CONNECT 事 件 成 功 


创建 事件 处 理 器 make handler 


| open | 
创建 
/创建 
绑 定 前 摄 器 open 


READ 事 件 完成 


Handle read stream 


TT 读 取 数据 read 


WRITE 事件 完成 
Handle write stream 


再 次 写 write 


图 21-6 前 摄 器 运行 框架 下 TCP 客户 端的 协作 
2. 反应 堆 


相 较 于 基于 IOCP 模型 的 前 摄 需 ,基于 epoll/select 模型 的 反应 堆 要 简单 不 少 。 反应 堆 的 
运行 框架 如 图 21 -8 所 示 。 
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ACE Asynch 0 I ACE Asynch ACE ASsynch 
ACE Proactor ACE Service Handler Read Stream Write Stream 


run reactor event loop 
绑 定 前 摄 器 open 


ACCEPT 事 件 发 生 


创建 事件 处 理 器 make handler 


| open | 
创建 
/创建 
绑 定 前 摄 器 open 
oper 
READ 事 件 完成 


Handle read stream 


|“ 读 取 数据 read 


WRITE 事件 完成 


Handle write stream 


有 于! 灰 写 write 


21 -7 前 报 器 运行 框架 下 TCP 服务 端的 协作 


register_handler() 

输入 /输出 
handle_input() 
handle_output() 


ACE Event Handler 


handle_timeoutO 定 时 器 
ACE _ Reactor 


信号 /异常 事件 
handle_signal() 
handle_exception() 


ACE Event_ Handler 


图 21-8 反应 堆 运 行 框架 


我 们 仍 以 TCP 为 例 来 介绍 反应 堆 运 行 框 架 。 反 应 堆 运 行 框 架 本 号 由 两 个 组 件 构 成 . 
ACE Event Handler 和 ACE_ Reactor。 但 是 要 实现 TCP 通信 ， 还 需要 能 实现 Connect -Accept 
框架 的 ACE_Connector 和 ACE_Acceptor 两 个 组 件 的 文 持 。 
> ACE_Connector :ACE 连接 带 , 用 于 TCP 客户 端 癌 服务 端 发 起 连接 请 求 ,可 以 类 比 前 
摄 兹 运行 框架 中 的 ACE_Asynch_Connector。 ACE_ Connector 是 个 模板 类 , 指 定 了 它 的 
派生 类 事件 人 处理 器 ACE_ Event_Handler 的 派生 类 类 型 ，ACE_Connector 除了 提供 
open close \reactor .connect 等 方法 之 外 ,还 提供 了 以 下 三 个 重要 方法 : 


make svc handler (SVC HANDLER * &sh) 
/ /创建 一 个 新 的 事件 处 理 器 ACE Event Handler 的 派生 类 
connect svc handler (SVC HANDLER* &svc handler, 

const ACE PEER CONNECTOR ADDR &Tremote addr, 
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ACE Time Value *timeout, 
const ACE PEER CONNECTOR ADDR &local addr., 
int reuse addr, 
int flags, 
int perms) 
/ /获取 TCP 四 元 组 
activate svc handler (SVC HANDLER* svc handler) 
/ /激活 新 创建 的 事件 处 理 器 ,使 ACE Event_Handler 的 派生 类 调用 自己 的 open 方法 


> ACE_Acceptor:ACE 接受 硕 , 用 于 TCP 服务 端 接受 客户 端 发 起 的 连接 请 求 , 可 以 类 比 
前 摄 竟 运行 框架 中 的 ACE Asynch_ Acceptor。 ACE,_ Acceptor 也 是 个 模板 类 ,指定 了 它 
的 派生 类 服务 处 理 吉 ACE_Event_Handler 的 派生 类 类 型 。 ACE _Acceptor 除了 提供 
open ,close 等 方法 外 ,还 提供 了 以 下 三 个 重要 方法 : 


make svyvc handler (SVC HANDLER * &sh) 

/ /创建 一 个 新 的 事件 处 理 器 ACE Event Handler 的 派生 类 
accept svc handler (SVC HANDLER * svc handler) 
// 将 参数 传递 给 事件 处 理 器 


activate svc handler (SVC HANDLER* 3SVC handler) 
/ /激活 新 创建 的 事件 处 理 器 ,使 ACE Event Handler 的 派生 类 调用 自己 的 open 方法 


> ACE_Event_ Handler:ACE 事件 处 理 费 基 类 ,可 以 类 比 前 摄 右 运行 框架 中 的 ACE_ 

Service_Handler,TCP 的 输入 /输出 均 由 该 事件 处 理 类 的 派生 类 负责 。 使 用 事件 处 理 
硕 之 前 必须 要 调用 反应 推 的 register_handler 方法 将 其 注册 到 反应 堆 上 ,一 般 可 在 
open 方法 中 进行 注册 。 除 了 open ,close 等 方法 外 ,ACE_Fvent_Handler 还 至 少 提供 了 
以 下 几 个 重要 方法 : 

handle input (ACE HANDLE fd=ACE INVALID HANDLE) 

// 有 数据 可 读 , 此 时 可 以 调用 recrv 方法 进行 读数 据 的 获取 

handle output (ACE HANDLE fd=ACE INVALID HANDLE) 


// 上 一 次 数据 发 送 已 完成 ,此 时 可 以 调用 send 方法 继续 发 送 数据 


handle close (ACE HANDLE handle,ACE Reactor Mask close mask) 


// 当 事件 处 理 器 基 类 调用 了 close 方法 的 时 候 , 如 果 关闭 已 成 功 , 则 调用 该 方法 通知 事件 处 理 器 


handle timeout (const ACE Time Value &time,const void*) 


// 定 时 器 处 理 函 数 , 当 定时 器 到 达 约 定时 间 时 该 方法 会 被 调用 

handle exception (ACE HANDLE fd=ACE INVALID HANDLE) 

/ /异常 事件 的 处理 函数 ,包括 带 外 数据 的 到 达 也 是 通过 该 方法 获知 (SIGURG 信和 号 ) 
handle signal (Int signum,siginfo t*# =0,ucontext t* =0) 

/ /信号 事件 的 处 理 函数 


handle exit (ACE Process*) 


/ /进程 退出 时 被 调用 


> ACE_Reactor:ACE 反应 堆 基 类 ,其 具体 实现 包括 ACE_Select_Reactor .ACE_WFMO_ 

Reactor . ACE Dev_Poll Reactor S 等 子 类 ， 

e ACE _ Select_ Reactor :无 论 是 在 Windows 下 还 是 在 Linux 下 均 使 用 select 模型 , 支 
持 的 最 大 事件 数 为 64 ,但 可 通过 修改 配置 扩展 到 1 024。ACE_Select_Reactor 采用 
的 是 水 平 触发 (条 件 触发 ) 方 式 , 只 要 满足 条 件 就 一 下 不 厌 其 烦 地 通知 你 。 

e ACE WEFEMO Reactor :由 于 这 种 反应 堆 使 用 了 WaitForMultipleObjectsEx 模型 , 而 
这 是 Windows 下 才 有 的 模型 ,因此 其 只 能 运行 于 Windows 下 。ACE_WFMO 
Reactor 采用 的 是 边 绿 触发 方式 ,每 当 状 态 变 化 时 触发 一 个 通知 事件 。 在 读数 据 过 
程 中 的 所 谓 状 态 变 化 ,是 以 读 缓冲 区 中 还 有 没有 竺 读 出 的 数据 为 判断 基准 的 ,而 
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诸如 待 读 数据 量 从 1 000 减 到 100 这 样 的 变化 是 不 算 作 状态 变化 的 ,只 有 从 无 到 
有 或 从 有 到 无 才 会 触发 通知 。 
e。 ACE _Dev_Poll Reactor :默认 使 用 poll 模型 ,但 也 可 以 通过 修改 配置 更 改 为 使 用 
epoll 模型 。 前 者 采用 水 平 触 发 方式 ,而 后 者 既 可 以 采用 水 平 触发 方式 也 可 以 采用 
无 论 哪 种 反应 堆 , 都 要 通过 run_reactor_event_loop 方法 执行 事件 多 路 分 离 循环 ,这 一 般 是 由 
专门 的 线程 完成 的 。 反 应 堆 运 行 框 染 下 TCP 客户 并 与 服务 端的 协作 如 图 21 一 9 和 21 一 10 所 示 。 


ACE Reactor ACE Event Handler 


run reactor event loop 


回 反 应 堆 注 册 register 


， CONNECT 事 件 发 生 创建 事件 处 理 器 
make sve handler 


connect sve handler 激活 事件 处 理 器 
activate sve handler 


癌 反 应 堆 注 册 register 


WRITE 事 件 完成 


READ 事 件 发 生 


handle input 


21 一 9 ”反应 堆 运行 框架 下 TCP 客户 端的 协作 


ACE Reactor ACE Event Handler 


run reactor event loop 


回 反 应 堆 注 册 register 


ACCEPT 事 件 发 生 
创建 事件 处 理 器 
make sve handler 
激活 事件 处 理 器 
activate sve handler 


回 反 应 堆 注 册 register 


READ 事 件 发 生 


handle input 
handle output 
WRITE 事 件 完 成 
ea handle output 


21 一 10 ”反应堆 运行 框架 下 TCP 服务 端的 协作 
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在 反应 堆 运 行 框 染 下 ,无 论 是 客户 问 还 是 服务 问 , 通 信和 时 部 要 创建 一 个 事件 处 理 格 ,并 
且 两 端的 事件 处 理 带 都 要 癌 反 应 堆 注 册 。 


21.2.2 ”WebRTC 框架 


WebRTC( Web Real-Time Communication ,Web 实时 通信 ) 是 一 种 基于 浏览 寓 页 面 的 语 痛 
对 话 或 视频 通话 的 通信 和 框架。 因此 ,WebRTC 是 一 套 针 对 细 分 场景 的 通信 框架 ,其 目的 就 是 
无 插件 化 地 实现 视频 会 议 .声音 对 讲 .在线 聊天 等 实时 通信 类 功能 。 市 面 上 已 有 不 少 视频 会 
议 产品 采用 了 WebRTC 框架 。 

WebRTC 的 总 体 架 构 如 图 21 -11 所 示 。 整 个 框架 具有 良好 的 Web 接口 ,并 同时 文 持 
C++ 接口 (Web 接口 位 于 C++ 接口 之 上 ) 。 文 持 WebRTC 框架 的 主要 有 三 大 组 件 :音频 引擎 
组 件 .视频 引擎 组 件 和 传输 引擎 组 件 。 其 中 ,音频 和 视频 引擎 组 件 分 别 包括 了 视频 采集 和 编 
解 但 部 分 ,以 及 相应 的 防 持 动 缓冲 等 外 围 机 制 ;传输 引擎 组 件 文 持 P2P 方式 ,也 文 持 封 交 和 
解 封装 ,还 支持 对 RTP 的 加 密 (SRTP) 。 
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Video Engine 
VP8 Codec 


Video jitter butter 


Multiplexing 
STUN+TURN+ICE 


ee 


NetEQ for voice 


IE EU enhancem ents 


[APlforweb developers [J]APIlforbrowser makers ( ~ “1Overrideable by browser makers 
21 -11 WebRTC 总 体 框架 (图 片 来 目 WebRTC 官网 ) 


1. WebRTC 框架 的 特性 

WebRTC 框架 具有 以 下 特性 ， 

> 跨 平 台 特 性 : WebRTC 框架 支持 跨 平 台 方案 , 菲 窑 包括 Windows、Linux、 Mac 0S 和 
Android 等 在 内 的 多 套 操 作 系 统 。 在 PC .手机 .Pad 等 载体 上 [ 均 可 以 基于 浏览 占 运 行 
WebRTC + HTMLS 代码 。 特 别 是 在 移动 互联 网 时 代 ,兼容 Pad .于 机 等 载体 尤为 重要 。 
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> 流 媒 体 安全 特性 :WebRTC 框架 采用 SRTP/SRTCP 协议 代替 原来 的 RTP/RTCP 协议 
从 流 媒 体 封 装 上 加 强 安全 机 制 。 同 时 , 它 也 支持 基于 HTTPS 方式 的 网 页 信息 加 密 和 
基于 TLS 的 四 层 协 议 加 密 。 
> 私 网 穿 透 特性 .WebRTC 框架 既 可 采用 STUN( Simple Traversal of UDP Though NAT, NAT 
的 UDP 人 简单 穿 透 ) 方 式 守 透 NAT( Network Address Translate ,网络 地 址 转换 ) ,也 支持 
TURN(Traversal Using Relay NAT ,通过 Relay 方式 穿 透 NAT) 方 式 守 透 NAT ,可 以 说 私 
网 穿 透 性 是 WebRTC 框架 最 重要 的 特性 。 
> 网 络 自 适 应 特性 :基于 SRTCPARTCP 的 反馈 机 制 , 可 以 动态 调整 流 媒体 发 送 侧 人 码 流 的 
发 送 速 度 和 发 送 融 宽 。 
> 视频 编 解 码 特 性 .WebRTC 作为 由 Google 开源 的 流 媒体 框架 ,首先 支持 了 VP8 和 VP9 
两 种 编 解 码 算 法 (专利 免费 )。 近 年 来 由 于 Google 在 Chrome 浏览 硕 中 加 入 了 对 
H. 264 编 解 码 算法 的 支持 ,因此 WebRTC 也 文 持 了 H.264。 
WebRTC 框架 由 浏览 带 绒 (前 问 ) 和 Web 服务 端 (后 问 ) 组 成 ,前 问 用 于 会 话 交 互 , 流 媒 
体 发 送 .接收 与 呈现 .语音 对 讲 ; 后 妆 用 于 为 浏览 需 冰 提供 HTML 和 JaveScript 页 面 ,并 负责 
为 会 话 的 各 方 交 换 通 信和 媒体 信息 (握手 信息 ) 以 促成 会 话 各 方 的 点 对 点 二 接 通信 。 
2. WebRTC 框架 的 组 网 方式 
WebRTC 框架 具有 如 下 组 网 方式 . 
> WebRTC 三 角形 组 网 :会话 双方 的 浏览 需 互 相通 信 , 可 以 通过 一 台 公 共 的 Web 服务 
器 进行 流 媒体 握手 信息 交换 ,并 借 此 完成 NAT 打 洞 ,其 组 网 结构 如 图 21 -12 所 示 。 


Web 上 服务 器 
(应 用 程序 ) 


攻 对 等 连接 (音频 、 视 频 和 数据 ) 

浏览 器 M 浏览 吕 览 器 L 
(由 Web 服 务 器 运行 (由 Web 服 务 器 运行 
HTMLS 应 用 程序 ) HTMLS 应 用 程序 ) 


图 21-12 WebRTC 三 角形 组 网 方式 


> WebRTC 梯形 组 网 :会话 双方 的 浏 览 天 不 能 仅 通过 一 台 Web 服务 天 交换 信息 (例如 
某 一 侧 的 浏览 器 与 男 一 侧 的 Web 服务 胡 之 间 网 络 不 通 ) ,而 需要 通过 两 台 Web 服务 
佛 分 别 作 为 己方 一 侧 的 服务 代理 来 与 对 方 交换 媒体 握手 信息 ,并 基于 双方 的 Web 服 
务 需 提供 的 打 洞 信息 完成 私 网 穿 透 , 其 组 网 结构 如 图 21 -13 所 示 。 


| 应 用 软件 开发 协议 栈 2 


fy (WE 


Web 服 务 器 器 A SIP 或 Jingle Web 服 务 器 B 
(应 用 程序 ee B) 


浏览 器 M ”对 等 连接 (音频 和 视频 ) ”浏览 器 
(由 Web 上 服务 顷 A 运 行 (由 Web 服 务 井 B 运 行 
HTMLS 应 用 程序 ) HTML5 应 用 程序 ) 


图 21 一 13” WebRTC 梯形 组 网 方式 


> WebRTC 多 方 会 话 组 网 :会话 有 时 不 只 有 两 方 ,在 视频 会 议 场景 中 经 常 有 多 于 两 方 的 
会 话 主体 ,WebRTC 框架 也 支持 多 方 会 话 组 网 方式 。 与 前 两 种 方式 类 似 , 该 组 网 方式 
中 也 有 一 个 或 多 个 Web 服务 硕 用 于 交换 握手 信息 ,并 且 在 多 方 会 话 主体 不 能 两 两 之 
间 交 互 流 媒 体 数据 时 由 媒体 服务 器 负责 转发 音 视 频 等 媒体 数据 。 针 对 多 方 会 话 的 场 
景 存 在 两 种 组 网 方案 :网 格 方式 和 MCU( 多 点 控制 单元 ) 方 式 , 如 图 21- 14 所 示 。 


| ”| 
Web 服 务 器 ， Web 服 务 器 媒体 服务 器 
(应 用 程序 ) (应 用 程序 ) (选择 器 或 混合 
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浏览 器 T 浏览 器 T 


守之 了 
全 学 过 二 


浏览 器 M 


司 21-14 WebRTC 多 方 会 话 组 网 方式 
3. WebRTC 框架 下 的 通信 过 程 


使 用 WebRTC 框架 通信 主要 包括 以 下 儿 个 步 又 : 

(1) 通过 MediaStream 方法 获取 本 地 媒体 。 

(2) 通过 RTCPeerConnection 方法 在 会 话 的 浏览 兹 之 间 建 立 对 等 连接 。 

(3) 将 流 媒体 和 数据 通道 关联 到 这 条 连接 上 。 

(4) 使 用 RTCSessionDescription 方法 交换 会 话 摘 述 信息 。 

(5) 会 话 双方 交换 媒体 数据 . 

我 们 以 两 方 会 话 场 景 为 例 ,更 具体 地 看 一 下 几 个 参与 方 的 交互 流程 : 

(1) 会 话 双 方 的 浏览 冀 分 别 癌 Web 服务 需 请 求 会 议 网 页 资源 (HTML JavaSeript 页 面 

(2) Web 服务 硕 问 双方 的 浏览 硕 返 回 操作 显示 页 面 币 有 WebRTC JavaScript 代码 的 
页 面 。 

(3) 流 媒 体会 话 的 发 起 方 (浏览 寓 ) 将 目 己 的 流 媒 体能 力 描 述 以 SDP 的 方式 发 给 Web 


410 


有 第 21 章 通信 框架 


服务 硕 ,我 们 称 发 起 方 的 SDP 为 offer( 请 求 ) 。 

(4) Web 服务 右 问 流 媒 体会 话 的 接受 方 浏览 闫 (WebRTC JavaScript) 发 送 发 起 方 的 SDP 
信息 。 

(53) 流 媒 体会 话 的 接受 方 ( 训 | 览 郑 ) 将 日 己 的 流 媒 体能 力 描 述 以 SDP 的 方式 发 给 Web 
服务 融 ,我 们 称 接受 方 的 SDP 为 answer( 回应) 。 

(6) Web 服务 疾 回 流 媒 体会 话 的 发 起 方 浏览 絮 (WebRTC JavaScript 页 面 ) 发 送 接 受 方 
的 SDP 信息 。 

(7) 双方 的 浏览 禹 (WebRTC JavaSecript 页 面 ) 尝试 打 洞 穿 透 NAT 的 操作 , 打 洞 成 功 后 交 
换 流 媒 体 数 据 。 

(8) 知 打 洞 不 成 功 , 则 需要 借助 各 自 的 Web 服务 器 或 流 媒 体 服 务 占 交换 流 媒体 数据 。 

图 21 -15 和 图 21 一 16 是 WebRTC 三 角形 组 网 和 梯形 组 网 方式 下 的 会 话 流程 。 


EE 
| | 


浏览 器 M Web 服 务 浏览 器 L 


HTTPS GET 
200 OK 
(HITMLS/CSS/ Javascript) HTTPS GET] 
200 OF 
(HIMNLS/CSS/Javascript) 
HTTPS(SDP 对 象 MD) 
HTTPS(SDP 对 象 M) 


HTTPS(SDP 对 和 象 L) 


HTTPS(SDP 对 象 惑 ) 
ICE 打 润 


安全 的 媒体 或 数据 会 话 


图 21 一 15 WebRTC 三 角形 组 网 的 会 话 流程 


视频 会 议 中 的 嫁 体 包括 麦克 风 音 频 、 摄 像 头 实时 视频 .共有 的 视频 片段 等 多 种 类 型 。 

WebRTC 模型 采用 "轨道 ”的 概念 代表 一 种 媒体 类 型 ,采用 "* 源 ” 的 概念 代表 媒体 流 。 会 话 者 将 
“ 源 "分 成 多 个 流 分 发 给 不 同 的 与 会 者 ,每 一 份 流 又 分 为 音频 和 视频 两 种 “轨道 ,如 图 21 -17 

和 图 21 一 18 所 示 。 

4. WebRTC 框架 的 拥塞 控制 算法 

这 里 还 有 必要 简单 提 一 下 WebRTC 的 拥塞 控制 算法 GCC( Coogle Congestion Control ) 。 

WebRTC 作为 一 个 端 到 站 的 视频 通信 和 解决 方案 ,除了 要 文 持 尽 可 能 多 的 编 解 公 算 法 .向 
i API 强大 的 可 移植 性 和 器 平台 特性 外 ,一 定 要 处 理 好 在 弱 网 情况 下 的 发 送 与 接收 的 问 

。 特 别 是 应 用 于 视频 会 议 场景 下 时 , 弱 网 是 一 个 正 篆 的 存在 ,因此 必须 要 文 持 发 送 码 率 、 
edible ,而 要 实现 这 些 调整 ,首先 得 能 够 判断 出 当前 的 网 络 状态 ,也 就 是 丢 包 


411 


应 用 软件 开发 协议 材 Da 


9 & 
浏览 器 M Web 服 务 器 A Web 服 务 器 B 浏览 器 L 
i | | | 
' HTTPS GET \ \ 1 
' 200 OK | ' | 
! (HTNLS5/CSS/avascript) | | HTTPS GET | 
站 | ' 200 OK | 
I I ' (HTMLS/CSS/JavaScript) 
I | OC- 
， ”HTTPS(SDP 对 象 M) ，. | | | 
=<jinele action 一 Session-initiate'> 
I Ce I 
' HTTPSCSDP 对 象 MD) 
HTTPS(SDP 对 象 L) 
' <jingle action='session-accept>， ; 
' ”HTTPS(SDP 对 和 象 L) = | 
) ICE 打 洞 
' | 密 雏 协商 I | 
' 安全 的 妹 体 或 数据 会 话 | 
HTTPS( 关 闭 ) 
. <jinele action='session-terminate>, | 
I HTTPS( 关 闭 ) \ ) 
I \ I | 
21-16 WebRTC 梯形 组 网 的 会 话 流程 
演讲 流 | 
" “音频 ”轨道 
“演讲 ”轨道 
1 
演示 者 流 
I 2 和 ET 
J ! | “音频 ”轨道 
麦克 风 音 频 i “演讲 轨道 
= 也 
启用 程 夺 共 圣 的 视 堪 ee 
前 置 摄像 头 视 示 凌 站 流 
后 置 摄像 头 视 频 证 锋 轨 塌 
浏览 器 M 0 
源 本 地 媒体 流 创建 的 媒体 流 轨道 


图 21-17 发 送 者 的 媒体 源 与 轨道 


音频 和 视频 流 


人 ee 视频 ”轨道 
右 耳 机 ------ 1 玉手 
_ 一 | Es 
齐 览 驱 M (选择 的 音频 和 视频 流 ) 立体 声 流 
“ 左 声 壹 
音声 道 流 
接收 器 媒体 流 轨道 


图 21-18 接收 者 的 媒体 源 与 轨道 
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WebRTC 是 通过 RTP/RTCP 协议 来 反馈 丢 包 鞭 和 网 络 延 氏 的。 为 此 发 送 疹 和 接收 彦 各 
有 目 己 的 机 制 ,分 别 来 判断 丢 包 率 和 网 络 延 迟 。 

(1) 发 送 病 

发 送 端 基于 丢 包 率 来 判断 网 络 状态 ,通常 需要 接收 问 采 用 RTCP 的 RR( 接 受 者 报告 ) 包 
来 进行 反馈 ,在 RR 包 的 通用 RTCP 头 字 段 后 有 一 个 fraction lost 字段 就 是 专门 用 于 反馈 丢 包 
率 的 。 这 很 简单 ,也 很 好 理解 。 

(2) 接收 病 

接收 咽 是 基于 延迟 梯度 来 判断 网 络 状 态 的 。 那 么 什么 是 延迟 梯度 ?和 价 单 地 说 ,梯度 延 
迟 本 质 上 是 各 个 数据 包 接 收 端 收 到 数据 包 的 时 间 减 去 发 送 端 发 送 数 据 包 的 时 间 后 的 差 值 ， 
也 就 是 数据 包 穿 越 整 条 链 路 过 程 中 耗 时 的 差 值 。 打 个 比方 ,如 采 接 收 闪 在 接收 一 个 个 RTP 
包 的 时 候 , 每 个 包 的 穿越 时 长 都 是 10 ms ,那么 可 以 认为 延迟 梯度 为 0, 从 而 可 以 认为 这 个 网 
络 状态 比较 稳定 ( 当然 现实 情况 中 每 个 包 的 穿越 时 长 肯定 不 可 能 是 一 样 的 ,一 定 会 有 波动 ， 
而 WebRTC 通过 滤波 和 组 策略 平 请 掉 了 这 个 波动 ) ;反之 ,如 果 接 收 到 第 一 个 包 时 发 现 穿越 
时 长 是 10 ms ,第 二 个 变 成 了 15 ms ,第 三 个 变 成 了 20 ms ,那么 延 开 梯度 就 变 成 了 5, 这 说 明 
网 络 状 态 是 在 变 差 的 。 当 然 ,梯度 值 也 有 可 能 是 负 的 ,这 表示 网 络 拥塞 情况 在 逐渐 变 好 ,中 
间 传 输 设备 的 缓冲 区 的 数据 包 正 在 加 速 消化 中 。 

接收 端 根据 延迟 梯度 计算 出 带宽 结果 后 通过 RTCP 的 RR 包 的 remb 字段 来 反馈 。 同 
时 ,由 于 接收 端 要 计算 穿越 时 长 ,因此 必须 要 得 到 该 数据 包 在 发 送 端的 发 送 时 间 , 因 此 
WebRTC 也 扩展 了 RTP 头 部 结构 , 即 增加 了 一 个 扩展 字段 abs - send -time 来 表示 RTP 包 的 
发 送 时 间 。 

其 实 , 在 较 新 的 WebRTC 版 本 中 ,两 种 拥塞 控制 策略 的 计算 和 研判 都 挪 到 了 发 送 端 , 当 
然 计算 的 策略 和 机 制 都 没有 什么 改变 ,只 是 接收 碧 的 RTCP 的 RR 包 要 包含 RTP 包 的 到 达 
时 间 了 。 

可 以 看 出 ,WebRTC 的 拥塞 控制 机 制 的 重点 还 是 原先 处 于 接收 并 的 延迟 梯度 判断 。 这 
个 判断 模块 主要 巾 三 个 组 件 构成 :到 达 时 间 滤 波 融 .过 载 检测 融和 速率 控制 硕 。 这 三 个 组 件 
按照 上 述 顺序 来 处 理 RTP 包 的 到 达 延 时 和 发 送 间 隔 ,其 主要 步骤 如 下 

> 到 达 时 间 滤 波 需 根据 各 个 RTP 包间 的 到 达 延 迟 和 发 送 间隔 计算 延迟 变化 。 在 这 一 步 
又 中 还 采用 了 卡尔 曼 滤 波 来 平滑 网 络 拌 动 测量 精度 和 网 络 噪音 等 因素 造成 的 误差 。 

> 过 载 检测 颖 根据 上 述 延 迟 变 化 来 判断 当前 网 络 状 态 :overuse( 过 载 ) .underuse( 使 用 不 

足 ) 或 normal( 正常 ) 。 

> 速率 控制 器 根据 上 述 状 态 和 事先 设 定 的 一 个 国 值 来 计算 吾 宽 估计 值 。 

经 过 这 些 步骤 ,接收 端 就 生成 了 根据 延 久 梯度 算出 的 带宽 估计 值 。 那 么 另 一 侧 的 发 送 
冰 也 会 周期 性 地 根据 丢 包 来 算出 基于 丢 包 率 的 读 宽 估计 值 ,WebRTC 则 在 这 二 者 之 间 选 取 
最 小 值 来 作为 新 的 发 送 速率 。 
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21.2.3 ”Netty 框架 


Netty 是 由 JBoss 开发 的 异步 IO 通信 和 框架 EE Tomcat 最 大 的 不 同 之 处 就 是 通信 协议 。 
Tomcat 是 一 个 基于 HTTP 协议 的 Web 容器 ,但 Netty 却 可 以 通过 编程 自 定义 各 种 协议 。 因 为 
Netty 框架 中 存在 协议 支持 模块 ,可 以 通过 Codec 框架 编码 .解码 字 节 流 , 完 成 更 高 级 的 业务 
功能 。 除 此 之 外 ,Netty 框架 还 具有 以 下 特性 : 
并 发 性 能 高 :采用 基于 select 机 制 的 Reactor 模型 。 
> 传输 速度 快 : 堆 拷贝 , Netty 接收 和 发 送 数据 采用 Direct Buffers 模式 使 用 堆 外 直接 内 
存 进 行 socket 读 写 而 不 需要 进行 池 市 缓冲 区 的 二 次 拷贝。 

> 安全 加 密 : 支 持 SSL/TLS/StartTLS。 

> 提供 对 多 种 编 解码 框架 的 集成 :包括 Protobuf Jbossmarshalling Java 序列 化 .压缩 编 解 
人 码 XML 解 公 字符 串 编 解码 等 编 解 公 框 架 可 以 被 用 户 耳 接 使 用 。 

> 可 以 对 网 络 事 件 进行 拦 稚 和 过 滤 。 

> 是 当下 非常 流行 的 Java 通信 和 框 染 : 封 淡 人 简单 ,使 用 方便 ,社区 活跃 。 

我 们 先 来 看 一 下 Netty 的 功能 框架 ,如 图 21 -19 所 示 。 

传输 服务 协议 支持 
sr HTTP SSL、StartTLS 


容器 集成 文本 协议 二 进 制 协议 zlib/gzip 压 缩 
osGI | JBossMC 时 油 tiso| webSocket | 大 文件 传输 


Spring (TUIICE 自 定义 协议 


可 扩展 事件 模型 


通用 通信 API 


支持 零 拷贝 字 节 缓冲 


Core 
Core 


图 21 一 19 Netty 框架 功能 框架 视图 


Netty 改进 Reactor 模型 ,将 Reactor 分 成 mainReactor 和 subReactor 两 部 分 。 以 TCP 服 
务 病 为 例 , mainReactor 负责 TCP 服务 端的 socket 监听 与 接受 ,并 将 接受 的 socket 分 派 给 
subReactor;subReactor 负责 事件 多 路 分 离 ,并 处 理 所 有 的 读 写 事务 和 业务 逻辑 功能 ,如 图 21 -20 
Us 

在 Netty 中 ,mainReactor 就 是 Boss 类 ,而 NioWorker 类 则 充当 subReactor, 旦 NioWorker 
类 的 个 数 与 当前 系统 中 CPU 的 核 数 相当 。 以 TCP 服务 端 为 例 , Boss 对 象 专门 负责 监听 
socket 并 接受 TCP 客户 闹 发 过 来 的 连接 请 求 ,但 不 处理 读 写 事 务 ; 同 时 , 奋 干 个 NioWorker 对 
象 则 专门 庶 写 数据 ,处理 业务 逻辑 ,这 种 模型 具有 很 高 的 并 发 效率 。 
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主 反应 堆 线 程 


二 四 


tasks 


21 一 20 ”Netty 框架 通信 模型 视图 


在 Netty 中 ,Channel 表示 一 个 连接 ; ChannelHandler 用 于 数据 收发 处 理 业 务 :; Channel 
HandlerContext 用 于 在 Channel 之 加 传输 业务 数据 ;ChannelPipeline 则 保存 各 人 处理 过 程 的 
ChannelHandler 和 ChannelHandlerContext 。 

面 问 Channel 的 数据 谈 写 是 Netty 的 一 大 特点 。ChannelPipeline 中 各 组 件 之 间 的 协作 关 
系 如 图 21 -21 所 示 。 


ChannelPipeline 


ChannelHandler ChannelHandler ChannelHandler 
| © | (3) | 


Te 
图 21-21 ChannelPipeline 中 各 组 件 的 协作 关系 
不 同 协议 .不同 阻 星 类 型 的 连接 都 有 不 同类 型 的 Channel 与 之 对 应 ,这 些 Channel 涵盖 
了 基于 UDP/TCP 的 网 络 IO 以 及 文件 IO 操作 ,包括 : 
> NioSocketChannel: 异步 的 TCP 客户 问 连 接 ， 
> NioServerSocketChannel :异步 的 服务 器 病 TCP socket 连接 ; 
> NioDatagramChannel :异步 的 UDP 连接 ; 
> NioSctpChannel: 异 步 的 SCTP 客户 疹 连 接 ; 
> NioSctpServerChannel :异步 的 SCTP 服务 骨 姗 连接 。 
Netty 是 由 事件 驱动 的 ,通过 ChannelPipeline 来 控制 事件 流 , 各 个 ChannelHandler 被 注册 
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到 ChannelPipeline 上 处理 数 据 读 写 事务 。 事 件 流 分 为 两 种 ,上 行事 件 (upstream ) 处 理 外 发 ， 
下 行事 件 ( downstream ) 处 理 接 收 , 因 此 注册 到 ChannelPipeline 中 的 处 理 右 ChannelHandler 可 
以 是 ChannelUpstreamHandler 或 ChannelDownstreamHandler。 它 们 可 以 终止 流程 ,也 可 以 将 
事件 (ChannelEvent) 传递 下 去 ,传递 流程 可 以 通过 ChannelHandlerContext 的 sendUpstream 或 
sendDownstream 方法 实现 。 


21.2.4 Service Mesh 


1. Service Mesh 简介 

Service Mesh( 服务 网 格 ) 最 早 是 由 Buoyant 公司 提出 的 。 这 是 一 个 轻 量 级 高 性 能 网 络 代 
理 框 架 , 服 务 于 云 原 生 的 应 用 ,特别 是 微服 务 场景 下 的 通信 管理 。 因 此 Service Mesh 是 介 于 
三 层 和 四 层 协 议 之 间 的 网 络 代 理 的 抽象 框架 ,是 云 服务 中 的 基础 设施 层 。 

亏 前 述 各 通信 和 框 染 不 同 ,Service Mesh 是 瞻 准 微服 务 集群 场景 下 的 分 布 式 通信 框架 ,而 
非 像 ACE 等 框架 一 样 针 对 的 是 单 体 进程 的 通信 服务 。 

在 微服 务 场景 下 ,单个 应 用 程序 可 能 包含 几 十 甚至 上 百 个 单 体 服务 实例 ,每 个 服务 实例 
都 处 于 不 断 变化 的 状态 (例如 处 于 Kubernetes 调度 环境 中 时 ) ,对 于 网 络 流量 的 引流 .熔断 、 
加 密 、 人 负载 均衡 网 络 监管 等 基础 设施 和 运 维 功能 如 采 都 由 业务 模块 日 己 实现 , 则 会 造成 庞 
大 的 开发 量 和 较 高 的 开发 门槛 。Service Mesh 就 是 在 这 种 诉求 之 下 产生 的 ,其 日 的 是 将 通信 
服务 从 上 层 业 务 和 底层 系统 中 剥离 出 来 形成 一 个 单独 的 框 染 ,以 方便 对 网 络 和 流量 进行 监 
管 和 控制 ,同时 解放 上 层 业 务 网 络 管理 的 束缚 ,使 业务 模块 的 开发 门槛 降低 ,工作 量变 小 。 

Service Mesh 的 则 型 组 网 方式 如 图 21 -22 所 示 。 


A 服 务 


服务 上 发现 服务 发 现 


网 络 栈 


图 21 一 22 Service Mesh 的 典型 组 网 方式 


Service Mesh 一 般 分 为 数据 平面 和 控制 平面 两 部 分 ,这 与 SDN( 软件 定义 网 络 ) 的 核心 思 
想 不 谋 而 合 。 
数据 平面 负责 具体 通信 业务 ,包括 数据 传输 .数据 包 转 发 . 路由、 服务 发 现 等 ,一般 采 用 


416 


DS 第 21 章 ”通信 框架 局 


通信 代理 的 方式 与 业务 模块 交互 ,我 们 将 这 个 代理 称 为 Sidecar( 边 车 ,一 个 比较 莫名 其 妙 的 
名 字 ) 。Sidecar 负责 具体 的 通信 实现 (TCP .RPC .HTTP 等 ) 。 例 如 在 Kubernetes 中 使 用 Istio 
(Service Mesh 的 一 个 落地 项 目 ) 时 ,应 用 进程 所 在 的 容 冀 通过 Pod 中 共享 的 网 络 命名 空间 内 的 
Loopback 接口 与 Sidecar 通信 ,这 对 于 其 他 Pod 和 和 点 代理 是 不 可 见 的 。Linkerd 和 Envoy 等 开 
源 项 目 是 Service Mesh 数据 平面 的 具体 落地 实现 ,本 节 中 我 们 会 以 Envoy 为 例 讲述 数据 平面 。 

控制 平面 负责 朋 略 下 发 ,熔断 管理 .流量 加 密 , 并 承担 数据 平面 的 转发 业务 的 管理 工作 。 
这 个 “管理 ”的 范围 包括 下 发 转发 策略 ,流量 策略 等 ,但 不 包括 下 接 转 发 数据 包 , 同 时 要 承担 
与 外 部 系统 的 接口 和 网 络 行 为 可 视 化 等 工作 ,这 部 分 是 Service Mesh 的 核心 。 

与 SDN 类 比 ,Service Mesh 的 控制 平面 相当 于 SDN 控制 天 ,但 Service Mesh 的 数据 平面 
却 不 会 将 不 能 处 理 的 数据 包 汇 报 上 交 给 控制 平面 ,这 一 点 与 SDN 的 转发 平面 是 不 一 样 的 。 

2. lstio 

Istio 是 Google IBM 和 Lyft 联合 开发 的 开源 项 日 ,是 Service Mesh 框架 的 具体 落地 产品 。 
Istio 于 2017 年 5 月 发 布 了 第 一 个 Release 版 本 ,其 官方 的 定义 是 :一 个 连接 、 管 理 和 保护 微 
服务 的 开放 平台 ,是 一 种 将 网 络 层 委托 给 Istio 的 服务 网 格 。 

Istio 的 设计 初 囊 是 为 了 将 网 络 管理 与 业务 模块 分 离开 来 以 使 单个 微服 务 的 复 洒 度 降 到 
最 低 ,而 Istio 超越 Spring Cloud 和 Dubbo 等 框 染 的 地 方 就 在 于 其 提供 了 远 超 过 后 者 的 功能 
集合 ,并 且 不 需要 应 用 程序 做 多 大 改动 ,开发 的 门槛 也 比较 低 ,比较 全 面 地 解决 了 微服 务 治 
理 中 的 诸多 问题 。 

lstio 但 从 Service Mesh 的 基本 分 层 思 CD 想 , 亦 分 为 数据 平面 和 控制 平面 两 部 分 。 数据 平面 
由 网 络 代理 Envoy 组 成 ,部 署 形态 为 Sidecar,Sidecar 用 于 调 太 和 控制 微服 务 之 间 的 所 有 网 络 
通信 。 控 制 平面 由 Pilot、Mixer 和 Istio-Auth 构成 , 负 员 管理 流量 的 路 由 以 及 运行 时 的 执行 筑 
略 。 Istio 的 整体 架构 如 图 21 -23 所 示 。 


控制 面板 API 


一 一 > 请 求 控制 流 


id 


ay 的 | 
挥 制 报 文 


HTTP/1.1,HTTP/2, 双全 二 -| 


gRPC., TCP/TLS 


发 往 E nvo 的 
TLS 证 书 


A 服 务 
21 -23 Istio 架构 视图 
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3. Pilot 

Pilot 是 Istio 控制 平面 中 负责 流量 管理 的 组 件 。 至 于 其 中 文 名 称 ,总 不 能 翻译 成 “飞行 
员 ”, 但 翻译 为 导航 硕 " 还 是 比较 贴切 的 ,因为 流量 管理 的 具体 内 容 就 是 路 由 请 求 、. 服 务 发 
现 .负载 均衡 .故障 处 理 ,故障 注入 ,规则 配置 等 这 样 一 些 与 流量 导 引 有 关 的 工作 。 

Pilot 是 Envoy 的 省 理 者 , 它 定义 了 一 个 抽象 模型 ( Abstract Model ) ,以 便 从 特定 的 平台 细节 
中 解 看 出 来 ,提供 里 平台 能 力 ( 如 Kubermnetes 或 Mesos 等 )。Pilot 的 框架 结构 如 图 21 一 24 所 示 。 


Abstract Model ]| Piiot 
Envoy API 


服务 发 现 & a " \ - ~ ™ 
流量 规则 -~ , 


" 


21 一 24 Pilot 框架 结构 ( 图片 来 自 CSDN) 

Pilot 框架 包含 以 下 组 件 : 

> Envoy API 组 件 : 作 为 与 Envoy 交互 的 第 一 层 逻 辑 实体 ,负责 与 Envoy 之 间 所 有 的 通 
信 ,包括 向 Envoy 下 发 服务 发 现 信 息 ,流量 控制 规则 等 。 

> Platform Adapter 组 件 : 用 于 对 接 不 同 的 外 部 平台 (如 Kubernetes 或 Mesos 等 ) , 它 是 
跨 平 台 抽 象 模型 的 具体 实现 。 

> Rules API 组 件 : 癌 外 部 平台 提供 北向 接口 以 供 第 三 方 软件 管理 Pilot。 

> Abstract Model 组 件 :是 对 服务 网 格 中 “服务 ”的 规范 表示 ,用 于 定义 在 Istio 中 什么 是 
服务 ,这 个 规范 独立 于 底层 平台 。 

4. Mixer 

Mixer 一 般 被 翻译 为 “混合 右 ”, 是 在 服务 网 格 中 执行 访问 控制 和 使 用 策略 的 组 件 ,也 是 

被 Envoy 重度 依赖 的 组 件 。 Mixer 具备 yy 下 功能 : 

> 收集 Envoy 代理 和 其 他 服务 报 送 的 遥测 数据 , 例 
如 服务 日 志和 实时 监控 信息 等 。 

> 检查 前 提 条 件 , 对 上 层 应 用 软件 传 过 来 的 请 求 进 
行 验证 ,例如 权限 认证 、 黑 日 名 单 验 证 和 ACL 检 


> 管理 配额 ,可 以 在 多 个 维度 上 分 配 和 释放 资源 ， 
提供 限 速 等 配额 类 控制 服务 。 图 21 -25 ”Mixer 的 适配器 设计 思想 
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Mixer 采用 适 配 融 捕 件 的 方式 提供 Istio 与 不 同 后 端 服务 之 间 的 对 接 ,这些 后 端 服务 包括 
计 费 日志 管理 . 运 维 ,状态 监控 等 业务 ,这 种 设计 思想 与 各 后 端的 服务 对 接 , 使 得 另 一 侧 的 
接口 保持 不 变 , 做 到 了 后 端 无 关 化 (如 图 21 一 25 所 示 )。 

SS. stio-Auth 

Istio-Auth 组 件 用 于 提供 服务 到 服务 之 加 的 用 户 认证 服务 ,也 可 用 于 加 密 服 务 网 格 中 的 
流量 ,例如 数据 平面 Envoy 之 间 的 通信 和 就 是 采用 了 TLS 方式 进行 加 密 的 。Istio-Auth 的 架构 
如 图 21 一 26 所 示 。 


]SSUe & mount as k&s secrets 
A 服 务 Envoy 一 . 
| | mlLSstSecure Naming 


SAN spiffe//myorg.comins/prodisaibar” 
-Namsspace:prod 
-SEIVIce account:bar 


-Namsspace:prod 
-Serwice account'foo 


SAN: spitfeiij/myorg.cominsprod/satoo” 


图 21-26 Istio-Auth 架构 视图 ( 图 片 来 自 CSDN) 


6. Envoy 

Istio 作为 Service Mesh 的 具体 落地 项 目 ,使 用 的 数据 平面 是 Envoy 的 扩展 版 本 。 

Envoy 是 由 C++ 语言 开发 的 高 性 能 网 络 通 信人 代理 框 染 , 为 各 个 服务 提供 了 基础 网 络 通 
信人 能 力 ,包括 HTTP1. 1 .HTTP2.0 \gRPC( 由 Google 开发 的 一 于 语言 中 立 、 平 全 中立、 开源 的 
远程 过 程 调用 系统 ) 和 TCP 等。 除了 支持 上 述 四 层 或 五 层 通信 协议 ,Envoy 也 可 以 调节 服务 
网 格 中 所 有 服务 的 出 入 站 流量 。 除 此 之 外 ,Envoy 的 能 力 还 包括 : 

> 服务 发 现 : 可 以 接收 Istio 中 Pilot 组 件 的 服务 发 现 信 息 。 

> 断路 融 :这 是 一 种 服务 目 我 保护 的 机 制 , 当 对 个 服务 节点 因 故 隐 石 机 时 ,Envoy 可 以 检测 

到 该 节点 出 人 流量 的 异 和 时 , 替 判 定 为 故障 ,后 续 的 流量 不 再 调度 到 该 故障 节点 。 

> 负载 均衡 。 

> 健康 检查 。 

> 故 隐 注 入 :故意 引 人 和 人 故障 ,以 扩大 测试 范围 来 探测 故障 边界 ,提升 系统 的 健壮 性 。 

> 执行 路 由 规则 : 即 接受 Istio 中 Pilot 组 件 的 路 由 和 目的 地 策略 。 

> 加 密 和 认证 :你 证 安全 传输 。 

上 > 为 Istio 中 的 Mixer 组 件 提供 数据 。 

除了 Envoy 外 ,还 存在 其 他 数据 平面 的 落地 项 目 , 如 Linkerd 组 件 。 这 是 一 球 基 于 Scala 
语言 开发 的 通信 组 件 ,可 以 与 Istio 的 控制 平面 对 接 以 替代 Envoy。 
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7. Istio 的 应 用 

Service Mesh 最 第 用 的 场景 是 云 化 的 容 问 环境 ,特别 是 基于 Kubernetes + Docker 的 容 硕 
化 环境 监控 网 络 服务 状态 ,并 基于 此 为 上 层 业 务 服务 。 

其 实 ,Kubernetes 已 经 提供 了 诸如 Service 资源 对 象 管理 .负载 均衡 这 样 的 基础 功能 ,但 
为 何 还 要 以 Service Mesh 作为 云 应 用 程序 的 基础 功能 设施 组 件 呢 ? 

一 般 来 说 ,在 大 部 分 应 用 软件 中 ,上 述 基础 功能 逻辑 耳 接 构建 在 程序 本 里 的 各 层 软 件 栈 
中 了 ,例如 超时 重 连 机 制服 务 监 控 机 制服 务 发 现 机 制 等 。 但 是 随 看 应 用 程序 架构 越 来 越 
微服 务 化 ,将 底层 的 通信 相关 的 业务 迎 辑 从 应 用 程序 中 剥离 出 来 就 变 得 越 来 越 必 要 了。 也 
就 是 说 ,应 用 程序 只 需要 关注 目 己 的 业务 实现 ,而 不 应 该 涉及 通信 服务 ,不 应 该 关注 网 络 协 
以 栈 ,也 不 应 该 负责 目 己 的 负载 均衡 和 炊 断 机 制 。 基 于 这 种 考虑 ,将 这 些 共性 的 、 抵 层 的 业 
务 逻 和 辑 剥离 和 抽象 出 来 作为 公共 服务 组 件 束 成 了 必然 。 特 别 是 在 云 化 环境 中 ,在 容 硕 中 部 
车 微服 务 组 件 成 了 大 趋势 , 轻 量 级 的 微服 务 业 务 模 块 非 常 需 要 这 些 底层 公共 组 件 的 文 返 。 
这 些 底 层 公 共 组 件 也 被 称 为 “服务 治理 ”组件 。 

Kubernetes 的 Pod 里 可 以 包含 多 个 容 带 ,同一 个 Pod 的 多 个 容 需 之 间 共 享 卷 ,网络 和 
IPC( 进程 间 通 信 机 制 ) 。Kubemetes 的 Pod 机 制 给 我 们 提供 了 一 种 能 力 , 束 是 将 一 个 本 来 要 
捆绑 在 一 起 的 服务 拆 成 多 个 ,可 以 分 为 主 容 右 和 副 容 器 (Sidecar) ,这 是 一 种 更 细 粒 度 的 服务 
拆 分 能 力 。 

在 Istio 与 Kubernetes 结合 使 用 的 场景 下 (如 图 21 一 27 所 示 ) ,Istio 在 业务 Pod 里 部 署 了 
一 个 Sidecar( Envoy 或 Linkerd) ,这 是 一 个 代理 服务 器 ,前 文 提 到 的 网 络 层 功 能 基本 依 徘 它 
来 实现 ,Envoy/Linkerd 和 上 层 的 控制 层 组 件 ( Mixer、Pilot ,Istio-Auth ) 交互 ,实现 动态 配置 系 
略 执行 .安全 证 书 获取 等 功能 ,同时 对 用 户 业 务 透 明 。 


21.2.5 其 他 通信 框 淋 


除了 ACE 和 WebRTC 框架 ,还 有 许多 其 他 框架 ,但 由 于 这 些 框架 的 兼容 性 、 普 适 性 里 

平台 性 .通信 效率 等 均 比 不 上 ACE 或 Netty ,因此 在 这 里 仅仅 做 一 些 简 单 介 绍 。 
21.2.5.1] Boost. Asio 框架 

Boost. Asio( 简称 Boost) 是 个 由 C++ 语言 编号 的 轻 量 级 跨 平 台 开 源 通 信和 框架 ,依赖 于 
Boost 库 。 与 ACE 类 似 ,Boost 框架 在 Windows 下 基于 IOCP 模型 在 Linux 下 基于 epoll 模型 
实现 了 异步 事件 机 制 。 在 使 用 时 只 需要 include 头 文件 而 不 需要 导入 其 他 第 三 方 动态 库 。 

Boost 框架 日 底 同 上 依次 是 操作 系统 适 配 层 ( 由 Boost. System 库 提供 操作 系统 文 持 ) , 模 
板 类 模板 类 的 参数 化 和 唯一 的 服务 框架 io_service( 用 于 与 操作 系统 打交道 ,等 每 了 折 有 异步 
操作 的 结束 )。 但 Boost 框架 比 ACE 框架 的 门槛 要 低 得 多 , 且 只 涉及 socket 通信 、COM 串口 
通信 文件 IO 和 一 些 人 简单 的 线程 操作 。 其 中 Boost 框架 的 事件 分 派 是 基于 卫 数 对 象 的 
Hanlder 事件 分 派 机 制 , 且 任何 图 数 都 可 能 成 为 Hanlder。 

Boost 框架 可 以 同时 支持 数 干 路 TCP 并 发 连接 ,其 性 能 接近 ACE 框 染 。 
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21 一 27 Istio 与 Kubernetes 框架 结合 使 用 的 场 是 
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21.2.5.2 Libevent 

Libevent 是 由 C 语言 编写 的 基于 事件 驱动 机 制 的 轻 量 级 通信 和 库 , 适 用 于 Windows 和 
Linux 等 多 种 平台 ,其 多 路 分 离 机 制 可 以 基于 IOCP .epoll select 等 多 种 模型 ，Libevent 库 本 
质 上 是 一 个 反应 堆 框 架 , 回 反应 堆 注 册 接 口 和 事件 , 当 事 件 发 生 时 ,注册 的 接口 被 回调 。 这 
些 被 激活 的 事件 存放 在 优先 级 队列 中 ,每 个 事件 的 默认 优先 级 都 是 相同 的 ,但 可 以 调整 以 提 
高 事件 优先 级 使 其 被 优先 处 理 。 

我 们 借用 ACE 框架 中 的 反应 堆 来 类 比 Libevent: 

> Libevent 的 事件 多 路 分 离 机 制 仍然 是 select ,epoll 等 ,这 与 ACE 框 织 是 一 致 的 。 

> 在 Libevent 中 仍然 要 将 事件 和 接口 注册 到 反应 堆 上 ,这 一 点 与 ACE 框架 也 是 一 致 的 。 

> Libevent 的 事件 处 理 需 是 Event 结构 体 , 对 应 了 ACE 框架 中 的 ACE_Event_Handler 类 。 

Libevent 文 持 的 事件 及 属性 包括 : 

> EV_TIMEOUT :表示 超时 事件 ; 

> EV_READ :表示 只 要 网 络 缓冲 区 中 还 有 数据 未 被 读 出 ,回调 商 数 就 会 被 俐 发 ; 

> EV_WRITE :表示 只 要 传递 给 网 络 缓冲 区 的 数据 被 上 层 应 用 方法 写 完 , 回 调 函 数 就 会 

被 触发 ; 

> EV_SIGNAL :表示 POSIX 信号 量 ; 

> EV_PERSIST: 右 指定 该 属性 ,回调 函数 被 触发 后 事件 不 会 被 删除 ,反之 则 会 被 删除 ; 

> EV_ET :表示 边 绿 触发 方式 。 

Libevent 框架 的 运行 流程 如 下 所 示 : 

(1) 调用 event_init 方法 创建 event_base 对 象 ,一 个 event_base 对 象 对 应 一 个 reactor 
实例 。 

(2) 创建 具体 的 事件 处 理 右 并 设置 它们 关联 的 反应 堆 。 

> evsignal_new 和 evtimer_new 分 别 用 于 创建 信号 事件 处 理 右 和 定时 事件 处 理 右 ,它们 

的 统一 入 口 是 event_new 方法 ; 

> event_new 方法 成 功 时 返 回 一 个 上 vent 类 型 的 对 和 象 ,也 就 十 Libevent 的 事件 处 理 需 。 

(3) 调用 event_add 方法 将 上 述 返回 的 事件 处 理 硕 添加 到 注册 事件 队列 中 ,并 将 该 事 
件 处 理 硕 对 应 的 事件 添加 到 事件 多 路 分 离 天 中 。 

(4) 调用 event_base_dispatch 方法 来 执行 事件 循环 。 

(5) 事件 循环 结束 后 ,使 用 * _free 系列 方法 释放 系统 资源 。 

Libevent 的 运行 流程 如 图 21 一 28 所 示 。 

21.2.5.3 Libev 框架 

Libev 对 Libevent 做 了 优化 修改 ,设计 更 和 伽 练 ,性 能 也 有 所 提升 ,在 Linux 下 可 支持 epoll 
和 KeQueue 机 制 ,但 对 于 Windows 系统 的 文 持 不 好 ,不 文 持 IOCP 模型 。 与 Libevent 一 样 ， 
Libev 也 可 以 设置 事件 处 理 优先 级 。 
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异步 事件 


事件 [加 入 事件 
到 Libeveny 定时 器 事件 


定时 伦 事 件 


读 / 写 事件 该/ 写 事 件 


事件 等 待 队 列 激活 队列 [n] 
图 21 一 28 ”Libevent 运行 流程 


21.2.5.4 Liburv 框架 
Libuv 是 node. js( 基于 Google Chrome 的 JavaScript 引擎 的 Web 应 用 程序 框架 ) 采 用 人 二 
言 封装 的 轻 量 级 通信 库 ,node. js 依 球 的 通信 库 束 是 Libuv。Libuv 在 Windows 下 使 用 IOCP 
模型 ,而 在 Linux 下 集成 了 Libev。Libuv 的 特点 是 使 用 了 大 量 的 回调 机 制 实现 异步 IO 的 完 
21.2.5.5 RPC 框架 
RPC( Remote Procedure Call ,远程 过 程 调用 ) 是 一 种 跨 主 机 器 进程 的 通信 机 制 ,其 特点 
是 屏 贡 了 通信 协议 的 细节 ,而 将 通信 请 求 封 装 成 接口 以 便于 分 布 式 程序 的 调用 。 因 此 ,我们 
称 之 为 “远程 过 程 调用 ”。 
前 面 的 章节 中 我 们 介绍 过 本 地 过 程 调用 (LPC) 。RPC 与 LPC 相对 应 ,只 是 RPC ry 
场景 更 广泛 ,LPC 的 大 多 数 功 能 都 可 以 由 RPC 代劳 。 不 过 两 者 的 实现 机 制 确实 大 相 径 
LPC 采用 共享 内 存 区 和 端口 对 象 来 实现 , RPC 则 是 彻头彻尾 地 基于 TCP/IP 通信 。 en 
RPC 分 为 客户 病 和 服务 端 , 我 们 定义 发 起 请 求 的 一 方 为 客户 中, 啊 应 请 求 的 一 方 为 服务 端 ， 
二 者 之 间 采 用 同步 方式 通信 。 在 微服 务 化 日 益 广泛 的 分 布 式 架构 场景 中 ,RPC 有 着 广泛 的 
应 用 。 
RPC 框架 由 以 下 几 部 分 组 成 : 
> 了 pcServer : 负责 导出 (export) 远 程 接口 。 只 有 服务 冰 导 出 了 接口 ,客户 病 才 知道 怎样 
调用 。 
> RpcClient: 人 负责 导入 (import) 远 程 接 口 的 代理 实现 ,使 客户 六 像 调用 本 地 方法 一 样 去 
调用 远程 接口 方法 。 
> RpcProxy :远程 接口 的 代理 实现 ,RpcClient 与 其 进行 交互 。 
> RpcInvoker :表示 一 种 机 制 , 即 客户 站 负责 编码 调用 信息 和 发 送 调用 请 求 到 服务 端 ， 
并 等 待 调用 结果 返回 ( 当然 RPC 机 制 也 可 以 改进 以 做 到 异步 调用 ,但 目前 仍 以 同步 
调用 为 主 ) ;服务 端 负 贡 调 用 服务 接口 的 具体 实现 并 返回 调用 结果 ，。 
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> RpcProtocol: 负责 协议 编 解 但 。 

> RpcConnector :负责 发 起 客户 冰 到 服务 端的 连接 通道 ,并 发 送 数 据 到 服务 病 。 报 文 的 
传输 方式 一 般 采 用 基于 TCP 的 HTTP 协议 。 

> RpcAcceptor: 负责 接收 客户 疹 请 求 并 返 回 请 求 结果 。 RpcConnector 与 RpcAcceptor a 
间 通 过 心跳 保 活 机 制 以 维持 连接 。 

> RpcProcessor: 仙 贡 在 服务 端 控 制 调 用 过 程 ,包括 管理 调用 线程 池 .超时 时 间 等 。 

> RpcChannel: 数 据 传输 通道 。 

RPC 调用 流程 如 图 21 -29 所 示 。 


调用 


RpcProxy / 
Rpclnvoker 
TD 


图 21 一 29 ”RPC 调用 流程 


综 上 所 述 ,RPC 适合 同步 调用 的 场景 ,或 者 是 希望 以 API 调用 这 种 开发 门槛 较 低 的 方式 
交互 的 场景 。 我 们 比较 熟悉 的 WebService 调用 、Thrift 框架 每 都 是 基于 RPC 机 制 的 。 但 由 
于 是 同步 调用 ,所 以 服务 喘 的 处 理 能 力也 会 百 接 影 响 客户 端的 啊 应 效率 。 

RMI( Remote Method Invocation ,远程 方法 调用 ) 的 本 质 是 RPC 在 Java 语言 上 的 一 种 实 
现 : 在 一 个 Java 虚拟 机 上 的 对 象 调用 另 一 个 Java 虚拟 机 上 对 象 的 方法 (两 个 虚拟 机 可 以 是 
远程 的 或 本 地 的 ) 。 因 为 RPC 机 制 是 与 语言 和 操作 系统 无 关 的 ,而 RMI 只 能 用 于 Java 语言 ， 
其 核心 是 远程 Java 对 象 , 因 此 RMI 的 使 用 场景 比较 特定 ,不 文 持 非 Java 语言 开发 的 应 用 进 
程 ,也 不 能 与 非 Java 语言 开发 的 应 用 进程 进行 通信 。 

RMI 使 用 JRMP( Java Remote Method Protocol , Java 远程 方法 协议 ) 进行 通信 ,通过 在 客 
户 病 的 Stub 对 象 作 为 远程 接口 进行 远程 方法 的 调用 ,这 也 是 要 求 通信 双方 必须 采用 Java 语 
言 开 发 的 原因 。RMI 的 调用 结果 统一 由 XDR(External Data Representation , 外 部 数据 表示 ) 
语言 来 表示 ,这 种 语言 抽象 了 字 节 序 类 型 和 数据 类 型 之 间 的 差异 。 

客户 端 只 与 代表 远程 主机 中 Java 对 象 的 Stub 对 象 进行 通信 ,但 客户 端 不 知道 对 端 服务 
将 的 存在 ,客户 站 只 是 调用 本 地 Stub 对 象 中 的 方法 ,如 图 21 -30 所 示 。Stub 对 象 是 一 个 本 
地 存根 对 象 , 它 实现 了 远程 对 和 象 公 布 的 接口 ,也 就 是 说 Stub 对 象 中 的 方法 和 远程 Java 对 象 
骏 露 的 方法 的 签名 是 相同 的 。 客 户 只 认为 它 调用 了 远程 对 象 的 方法 ,实际 上 调用 的 是 Stub 
对 象 中 的 方法 。 可 以 这 么 说 :Stub 对 和 象 是 远程 对 和 象 在 本 地 的 一 个 代理 , 当 客 户 端 调用 Stub 


RpceClient 
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对 象 中 的 方法 时 ,Stub 对 象 会 将 调用 通过 网 络 传递 给 远程 对 象 。 


Skeleton 
1 膨 
Socket Socket 
Internet 


司 21- 30 RMI 通信 模型 


21.2.5.6 HP-Socket 框架 

HP-Socket 是 一 套 高 性 能 四 层 / 五 层 协议 通信 框架 ,支持 C++ 、C#、Java、Python 等 多 种 语 
言 ,同时 也 支持 TCP/AUDP 两 种 传输 层 协议 和 应 用 层 的 HTTP 协议 ,其 目的 就 是 隐藏 通信 细 
广 , 并 使 导出 的 接口 易于 应 用 、 更 加 通用 ,框架 更 加 高 性 能 ,伸缩 性 更 好 。HP-Socket 具备 里 
平台 能 力 , 兼 容 Windows 和 Linux 系统 。HP-Socket 提供 基于 事件 通知 模型 的 回调 式 API, 因 
此 HP-Socket 也 是 一 套 异 步 通信 框 染 。 

HP-Socket 包括 传输 层 组 件 类 .SSL(Secure Sockets Layer, 安全 套 接 层 ) 组 件 类 和 HTTP/ 
HTTPS 组 件 类 的 共计 29 个 组 件 。 其 中 传输 层 组 件 类 共 包 含 12 个 组 件 , 涵 盖 TCP 和 UDP 两 
种 方式 ;高 版 本 的 HP-Socket 的 TCP 组 件 全 面 文 持 SSL。HP-Socket 的 组 件 类 中 的 各 组 件 如 
表 列 = 至 21=3 有 所 不 。 


表 21 一 1 传输 层 组 件 类 


组 件 接口 
监听 器 接口 


ITepServe 
TCP Server , " PY . 
ITepServerListener 


ITecpServe 
TCP Pull Server | oe . 
ITepServerListener 


ITepPackServer 


TCP Pack Server ， i 
ITecpServerListener 


ee z IUdpServer 
rE IUdpServerListener 
: | IUdpArqServer 
UDP AR() Serve 
IUdpServerListener 
llepAgent 
TCP Agent z 


ITepPullAgent 
IlepAgentlistener 


TCP Pull Agent 
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TCP Pack Agent 


TCP Client 


TCP Pull Client 


TCP Pack Client 


UDP Client 


UDP ARQ Client 


UDP Cast 


SSL Server 


SSL Pull Server 


SSL Pack Server 


SSL Agent 


SSL Pull Agent 


SSL Pack Agent 


SS9L Client 


SSL Pull Client 


SSL Pack Client 
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组 件 接口 

监听 带 接 口 
ITecpPack Agent 
We CTcpPackAsgent Client 


ITcpserverListener 


ITepClient 8 
| PF ee . CTepClient Client 
ITepClientListener 
ITepPullClient 


ITepClientListener 


ClepPullClient Client 


ITepPackClient 


CTepPackClient Client 
ITepClientListener Sh 人 1€11 


IUdpClient 


or CUdpClient Client 
IUcpClientListener 和 Mo 


IUdpArqClient 


- CUdpArdqClient Client 
IUdpClientListener dpArqClien ien 


IUdpCast ore | 
IUdpCastListener Ee -en 


表 21L1-2 SSL 组 件 类 


组 件 接口 

监 折 兹 接口 
[Tcpserve 
(CSSLServer 


ITepServerListener 


Tipline | 
A Feereon ee 


ITepServerListener 


ITecpPackServer 


CSSLPackServe 
ITepServerListener 
1TecpAesent | 
ee CSSLAgent 


ITepServerListener 


ITecpPull Agent 


0 CSSLPullAgent 
[lcpAsgentListener 
ITecpPackAsgent 
ee CSSLPack Agent 


ITcpServerListener 


ITepClient CsT Cliont 
ITepClientListener ee 
ITepPullClient 


CoSLPullClient 
ITepClientListener de 


Client 


Client 


Client 


Client 


续 表 21 -1 


PACK 


接收 方式 


PUSH 


PACK 


PUSH 


PACK 


ITepPackClient 
和 CSSLPackClient Client PACK 
ITepClientListener 
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表 21-3 HTTP/HTTPS 组 件 类 ( 表 中 内 容 来 自 CSDN) 


名 称 组 件 接口 
机 ee 
监听 从 接口 
IHttpServe | 
HTTP Server 0 . CHttpServer Server CTepServer 
lHttpServerListener 
IHttpServer 
HTTPs Server P I CHttpsServer Server (LSSLServer 
[Http>erverLaistener 
HTTP Agent | CHttpsAgent Client CTepAgent 
ee [HttpAgentLastener 下 人 
IHttpAgent / z 
HTTPs Agent Pb . CHttpsAgent Client CSSLAgent 
[HttpAgentLastener 
IHttpClient : 
HTTP Client Ee CHttpClient Client CTepClinet 
IHttpClientListener 
/ IHttpClient . — 
HTTPs Client Eo CHttpsClient Client CSSLClinet 
IHttpClientListener 
/ IHttpsyncClient RE 二 
HTTP Sync Client 上 人 及 CHttpSynceClient Client CTepClinet 
IHttpClientListener 
IHttpSyncClient 
HTTPs Sync Client / CHttpsSyncClient Client CSSLClinet 
7 IHttpClientListener Pe ee ee 


按 组 件 的 角色 分 类 ,传输 层 组 件 类 也 分 为 Client、Server 和 Agent 三 种 ,其 他 两 种 组 件 类 
SSL 和 HTTP 也 是 一 样 。 
> Client 组 件 .TCP 客户 痕 组 件 定义 了 Connecet ,Send .Recrv 等 事件 啊 应 接口 。 
> Server 组 件 :TCP 服务 端 组 件 , 定 义 了 Listen Accept ,Send ,Recv 等 事件 啊 应 接口 。 
> Agent 组 件 :本 质 上 是 TCP 客户 病 组 件 集 群 ,可 以 代理 多 个 Client 请 求 。 
其 中 ,Server 组 件 基 于 IOCP(Windows 下 ) 模 型 和 epoll( Linux 下 ) 模 型 ,支持 大 规模 的 并 
发 连接 场景 ;Client 组 件 基 于 select 和 poll 模型 ,比较 适合 小 规模 的 并 发 场景 。 
从 数据 接收 方式 来 分 ,可 以 分 为 PUSH 组 件 .PULL 组 件 和 PACK 组 件 : 
> PUSH 组 件 : 当 组 件 接收 到 数据 后 ,触发 监听 需 对 象 的 OnReceive 回调 接口 ,该 接口 将 
数据 以 及 数据 长 度 回调 给 应 用 程序 。 
> PULL 组 件 : 当 组 件 接收 到 数据 后 ,触发 监听 需 对 象 的 OnReceive 回调 接口 ,该 接口 只 
将 接收 缓冲 区 接收 了 多 少数 据 告诉 应 用 程序 ,应 用 程序 还 要 调用 Fetch 接口 去 主动 获 
> PACK 组 件 : 当 组 件 接收 到 数据 后 ,触发 监听 需 对 象 的 OnReceive 回调 接口 ,该 接口 以 
数据 包 为 单位 回应 用 程序 回调 。 当 然 这 要 求 数据 在 发 送 时 就 以 数据 包 为 单位 ,传输 
时 在 每 个 包 前 面 加 上 4 个 字 节 的 私有 包头 作为 分 隔 符 ,这 样 一 来 组 件 在 接收 到 包 的 
时 候 才 会 区 分 出 边界 。 
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当 IClient 组 件 调用 Send ,SendPackets .SendSmallFile 发 送 数 据 时 , 硅 发 送 链 路 比较 繁忙 ， 
组 件 内 部 会 缓存 数据 ,等 发 送 链 路 空 亲 时 再 行 发 送 。 
当 JIServer 和 IAsent 组 件 调 用 Send .SendPackets .SendSmallFile 发 送 数据 时 ,可 以 通过 
SetSendPolicy 设置 不 同 的 发 送 策 略 ,不 同 的 发 送 策略 有 不 同 的 处 理 方 式 : 
> SP_ PACK :打包 策略 (默认 ) ,多 个 发 送 操作 组 合成 一 个 操作 ,以 便 提 高 发 送 效率 。 
> SP_SAFE :安全 人 梨 略 ,也 是 将 多 个 操作 组 合成 一 个 操作 ,同时 避免 发 送 缓冲 区 海 出 。 
> SP_DIRECT: 耻 接 束 略 ,每 一 个 发 送 操作 和 直接 投递 ,以 便 提高 实时 性 。 
当 [Server 和 IAgent 组 件 被 回调 OnReceive 接口 时 表示 接收 到 了 数据 但 也 有 可 能 
OnClose 接口 也 在 接收 数据 时 被 回调 ,我 们 可 以 通过 SetRecvPolicy 设置 接收 策略 来 避免 这 种 
> RP_SERIAL : 蝇 行人 委 略 ( 默认 ) ,对 于 单个 连接 ,顺序 回调 OnReceive 和 OnClose 接口 
以 增强 安全 性 。 
> RP_PARALLEL :并 行 策略 ,对 于 单个 连接 , 当 同 时 收 到 数据 和 Close 事件 时 ,会 在 不 
同 的 线程 中 同时 回调 OnReceive 和 OnClose 接口 以 提高 并 发 性 人 但 要 求 应 用 程序 必须 
受 善 处 理 调 用 OnClose 接口 市 来 的 资源 释放 安全 性 问题 。 
我 们 以 TCP 方式 为 例 来 考察 下 Server 和 Client 组 件 的 工作 流程 ,两 种 组 件 都 遵循 TCP 
通信 的 一 般 性 特征 。 完 来 看 Server 组 件 的 工作 流程 ,如 图 21 -31 所 示 ,具体 如 下 : 


<<create>> 
IServer:=new!listener) 


SETVET 
Start() 


OnPrepareListen 


OnRecelve 


Send() 


~ 轩 时 于 于 


OnClose Disconnect 


Disconnect() 
| Disconnect 


OnClose 
Stop() 


Onshutdown 
21 一 31 Server 组 件 的 工作 流程 
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(1) 服务 端 应 用 程序 调用 Star 方法 以 局 动 Server 组 件 , 如 果 调 用 成 功 会 收 到 
OnPrepareListen 事件 。 

(2) 客户 站 应 用 程序 回 服务 器 应 用 程序 发 起 连接 请 求 后 ,服务 病 应 用 程序 将 收 到 
OnAccept 事件 。 

(3) 客户 病 应 用 程序 向 服务 站 应 用 程序 发 送 数据 时 ,服务 冰 应 用 程序 将 收 到 OnReceive 
事件 ,并 且 根 据 PUSH .PULL 和 PACK 接收 方式 分 别 对 数据 进行 处 理 。 

(4) 服务 端 应 用 程序 调用 Send 方法 向 客户 端 应 用 程序 发 出 数据 后 ,服务 端 应 用 程序 将 
收 到 OnSend 事件 ,表示 发 送 完成 。 

(5) 断 开 连接 时 ,服务 端 应 用 程序 将 收 到 OnClose 事件 ,表示 连接 断 开 。 

(6) 服务 端 应 用 程序 调用 Stop 方法 关闭 Server 组 件 , 如 果 调 用 成 功 则 收 到 OnShutdown 
事件 ,表示 连接 关闭 。 

Client 组 件 的 工作 流程 如 图 21 -32 所 示 , 具 体 如 下 : 

(1) 客户 站 应 用 程序 调用 Start 方法 回 服务 端 应 用 程序 发 起 连接 请 求 , 如 采 连 接 成 功 则 会 
先后 接收 到 OnPrepareConnect 和 OnConnect 事件 ,分别 表 示 开 始 建立 连接 和 连接 建立 成 功 。 

(2) 客户 端 应 用 程序 调用 Send 方法 向 服务 端 应 用 程序 发 出 数据 后 ,客户 端 应 用 程序 将 
收 到 OnSend 事件 ,表示 数据 发 送 完毕 。 

(3) 服务 病 应 用 程序 回 客 户 端 应 用 程序 发 送 数 据 时 ,客户 端 应 用 程序 将 收 到 OnReceive 
事件 ,并 根据 PUSH .PULL 和 PACK 接收 方式 分 别 对 数据 进行 处 理 。 

(4) 断 开 连接 时 ,客户 端 应 用 程序 将 收 到 OnClose 事件 ,表示 连接 断 开 。 

(5) 客户 端 应 用 程序 调用 Stop 方法 关闭 Client 组 件 , 如 果 调 用 成 功 则 再 次 收 到 OnClose 
事件 ,表示 连接 关闭 。 

Agent 组 件 是 多 个 Client 组 件 的 代理 ,因此 具有 Client 的 大 部 分 特性 。Agent 组 件 的 工 
作 流 程 如 图 21 一 33 所 示 , 各 个 步骤 与 Client 组 件 的 极为 相似 ,其 代表 的 含义 也 基本 一 致 

(1) 客户 端 应 用 程序 调用 Start 方法 启动 Agent 组 件 ,如 果 调 用 成 功 则 返回 True。 

(2) 客户 端 应 用 程序 调用 Connect 方法 癌 服务 疹 应 用 程序 发 起 连接 请 求 ,如果 连接 成 功 
则 会 先后 接收 到 OnPrepareConnect 和 OnConnect 事件 。 

(3) 客户 问 应 用 程序 调用 Send 方法 回 服务 病 应 用 程序 发 出 数据 后 ,客户 器 应 用 程序 将 
收 到 OnSend 事件 。 

(4) 服务 病 应 用 程序 癌 客 户 站 应 用 程序 发 送 数据 时 ,客户 妆 应 用 程序 将 收 到 OnReceive 
事件 。 

(5) 断 开 连接 时 ,客户 端 应 用 程序 将 收 到 OnClose 事件 。 

(6) 客户 端 应 用 程序 调用 Stop 方法 关闭 Agent 组 件 , 如 果 调 用 成 功 则 收 到 OnShutdown 事件 。 
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<<create>> 
IClient:=newllistener) 
Client 
Start() 


OnPrepareConnect | Connect 


z OnConnect 
Sendl() 


| send 
(Unoend 


OnRecelve Send 
OnClose Disconnect 
Stop() 
Ml Disconnect 


OnClose 


图 21 一 32 Client 组 件 的 工作 流程 


21. 3 消 忌 队列 


消息 队列 (Message Queue ,MOQ ) 承 像 存放 消息 的 容 融 管道 ,一 病 ( 生 产 者 ) 负责 回 管 道内 
push 消息 , 另 一 器 ( 消 费 者 ) 则 负责 从 管道 内 pull 消息 。 在 管道 的 中 间 有 一 个 有 限 的 缓冲 
区 ,负责 一 定时 间 段 内 的 持久 化 工作 ,以 便于 执行 一 些 “ 削 峰 填 谷 ” 的 操作 。 基 于 此 ,MQ 在 
一 定 程 度 上 定义 了 生产 者 与 消费 着 之 间 的 工作 界面 。 

常用 的 MO 包括 Kafka ActiveMQ 、RabbitMQ RocketMQ ZeroMQ 等 。 不 过 一 般 不 认为 
ZeroMO(ZMQ) 是 消息 队列 ,因为 它 是 对 socket 和 IPC 机 制 的 一 种 封装 ,更 类 似 于 ACE 这 样 
的 通信 和 框 淋 ,只 是 内 部 的 实现 逻辑 全 用 了 消 奶 队列 的 一 些 思 想 ,因此 通常 会 将 ZMQ 看 作 通 
信和 框架 库 。 表 21 -4 列 出 了 常用 消息 队列 。 

在 这 里 我 们 也 简单 列 出 ActiveMQ 、 RabbitMQ 、RocketMQ 和 Kafka 这 几 种 典型 消息 队列 
的 特点 ,如 表 21 -S$ 所 示 。 本 节 我 们 不 准备 介绍 所 有 的 消息 队列 ,只 是 浅显 地 考察 下 ZMQ 
和 RocketMQ。 因 为 在 MQ 的 家 族 中 ,各 种 消息 队列 的 大 多 数 特性 都 是 大 同 小 异 的 ,其 主要 
的 共同 特性 (例如 持久 化 .订阅 机 制 等 ) 的 实现 思想 也 基本 一 致 ,并 没有 特别 结 命 性 的 突破 。 
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21.3.1 ZeroMQ 


ZeroMQ(ZMQ ) 是 一 种 基于 消息 队列 的 非 持 久 性 网 络 库 (类 似 于 socket 库 ), 文 持 多 线 
程 ,具有 较 低 的 开发 门槛 。ZMQ 是 基于 C 语言 开发 的 ,可 以 绑 定 C .C++ 、Java、. NET Python 
等 30 多 种 开发 语言 ,并 且 文 持 Linux Windows Mac 0S X 等 平台 。ZMQ 在 0SI 参考 模型 中 
位 于 应 用 层 之 下 传输 层 之 上 。 虽 然 ZMQ 的 名 称 中 融 有 “MQ” ,但 一 般 不 将 它 归 为 消息 队 
列 , 而 更 多 地 将 它 看 作 通 信和 框架 组 件 库 。ZMQ 具有 以 下 特点 : 

etd nie 

产 者 与 消费 者 内 部 采用 TCP 方式 传输 消息 。 

> htt 下 次 重 连 等 网 络 异 常 处 理 机 制 。 

> 以 消 奶 (MSG) 而 非 学 市 或 流 为 单位 收发 数据 ,因此 不 存在 类 似 TCP 精 包 这 样 的 问题 

> 通过 SENDMORE/RECVMORE 方法 文 持 对 大 数据 量 的 分 包 收 发 机 制 。 

> 任意 时 刻 消 息 只 被 一 个 线程 持 有 ,因此 不 需要 多 线程 锁 , 实 现 了 去 锁 化 。 

> 文 持 通过 水 位 标 来 控制 IO 流量 。 

> 兼容 文 持 进 程 内 通信 进程 间 通 信 ( 含 跨 主 机 ) 和 广播 等 多 种 通信 组 网 环境 。 

> 文 持 异 步 IO 操作 。 

> 支持 并 行 运行 , 文 持 分 布 式 部 署 。 

> 除了 网 络 通信 ,ZMQ 也 封装 了 消息 队列 和 线程 调度 等 机 制 。 

> 与 其 他 消息 队列 (RabbitMO 、ActiveMQ 和 MSMO 等 ) 相 比 IO 效率 最 高 。 

当然 ,ZMQ 也 有 具有 其 他 通信 框架 库 固 有 的 特点 ,虽然 在 高 并 发 下 本 续 一 般 不 会 出 现 稳 
定性 问题 ,但 有 可 能 使 本 地 缓存 被 填 满 而 导致 消息 丢弃 , 且 缺 乏 类 似 TCP 的 丢 包 重 传 机 制 ， 
因此 不 具备 其 他 消息 队列 所 固有 的 持久 化 能 力 。 

如 图 21 -34 所 示 , 在 ZMQ 框架 中 ,每 个 IO 线程 都 绑 定 了 一 个 轮 询 器 (Poller) 。Poller 
是 采用 Reactor( 反应堆) 模型 实现 的 ,通过 select Kequeue 或 epoll 机 制 实现 了 LO 多 路 复 用 
和 完成 事件 通知 。1/O 线程 通过 注册 的 方式 与 Poller 绑 定 ,Poller 会 将 完成 事件 回调 给 IO 
线程 。 

在 ZMQ 框架 下 ,1/O 线程 通过 Mailbox 来 与 主线 程 (也 具有 Mailbox 数据 结构 ) 进行 消息 
命令 的 交换 ,一 个 Mailbox 就 像 专用 的 管道 承载 收发 合 令 。 主 线程 与 IO 线程 通过 管道 机 制 
进行 消息 报 文 的 交换 ,这 些 消息 报 文 就 是 1/O 的 数据 。 从 主线 程 回 IO 线程 传输 时 采用 
Outbound Pipe, 反 之 则 采用 Inbound Pipe, 且 二 者 均 文 持 write/read 操作 ,分 别 用 于 发 送 和 接 
收 消息 数据 。 
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ZMOQ 支持 发 布 - 订 阅 模 型 请求- 应 答 模 型 和 管道 模型 三 种 通信 工作 模型 。 
1) 发 布 -订阅 模型 


消 盟 的 接收 者 被 定义 为 “订阅 端 ” ,发 布 者 锌 定义 为 “发 布 端 ”"。 订 阅 端 需要 癌 发 布 问 订 
阅 消息 接收 请 求 。 在 订阅 成 功 之 前 ,发 布 病 发 出 的 消息 都 会 被 丢 和 痉 。 订 阅 端 只 : 


县 而 不 能 反馈 消息 ,如 采 需 要 反馈 则 应 采用 额 外 的 链 路 来 实现 。 


如 图 21 一 35 所 示 ,在 这 个 模型 中 ,订阅 关系 可 以 是 一 对 多 , 即 单个 订阅 者 可 以 加 多 个 发 
布 者 订阅 ,或 者 多 个 订阅 者 回 单个 发 布 者 订阅 。 并 且 为 了 保证 公平 ,单个 订阅 者 可 以 平均 地 
从 多 个 发 布 者 读 取 消息 。 当 然 , 这 个 规则 也 可 以 被 配置 和 改变 ,在 ZMQ 3.0 以 前 的 版 本 中 ， 


订阅 者 制定 这 些 规则 ,而 在 ZMQ 3.0 及 以 上 的 版 本 中 由 发 布 者 制定 规则 。 


21 一 35 发布- 订阅 模型 


由 于 ZMO 是 采用 TCP 方式 传送 数据 的 ,在 订阅 者 和 发 布 者 启动 的 过 程 中 彼此 要 建立 
TCP 连接 ,因此 会 耗费 一 定 的 握手 时 间 ,在 这 个 过 程 中 订阅 者 可 能 会 丢失 寿 干 发 布 者 发 布 的 


消 县 。 
2) 请 求 -应 答 模型 


这 种 模型 也 被 称 为 一 问 一 答 模型 , 即 请 求 与 应 答 必 须 是 一 对 一 的 。 可 以 将 这 种 模型 理 
解 为 同步 的 ,消息 的 发 送 者 只 有 收 到 了 请 求 才 会 发 出 回复 。 如 有 果 发 出 了 请 求 没 有 收 到 回复 ， 
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再 次 发 出 请 求 消息 时 ZMQ 库 会 抛 异常 。 

如 图 21 -36 所 示 ,在 这 个 模型 中 ,请 求 和 应 答 是 由 元 封包 表示 的 ,每 个 元 封包 包括 了 知 
二 个 帧 。 例 如 图 21 -37 中 的 两 个 元 封包 就 是 含有 识别 码 和 不 含 识别 码 的 两 种 形态 的 包 。 
在 含有 识别 码 的 元 封包 中 ,第 一 帧 用 于 存放 消息 接收 端 (客户 端 ) 的 身份 识别 码 , 这 是 由 调用 
者 指定 的 ,ZMQ 内 部 会 维护 一 个 以 该 识别 码 为 键 、 客 户 端 地 址 为 值 的 MAP 结构 ;第 二 帆 作 为 
分 隔 符 一 般 是 空 的 ;第 三 帧 则 是 需要 发 送 的 数据 。 其 实在 不 售 识 别人 码 的 元 封包 中 也 有 隐藏 
的 识别 码 , 只 是 在 元 封包 中 不 体现 , 且 这 个 识别 码 是 由 ZMQ 默认 目 动 生成 的 。 


含有 识别 码 : 
第 一 帧 身份 识别 码 
第 二 由 室 的 分 隔 符 由 
第 三 帧 数据 帧 
不 含 识别 码 : 
第 - 帧 |0 空 的 分 隔 符 帧 
服务 六 第 二 由 数据 由 
图 21 -36， 请求- 应 答 模型 图 21 -37 元 封包 的 两 种 形态 


在 ZMQ 中 , 当 遇 到 客户 端 与 服务 端 是 一 对 多 或 者 多 对 一 的 关系 时 ,作为 请 求 者 的 客户 
并 每 次 只 跟 一 个 应 答 者 交流 ,如 果 请 求 者 连接 了 多 个 应 答 者 ,那么 请 求 会 同时 分 发 到 每 一 个 
应 党 者 。 作 为 应 谷 者 的 服务 端 每 次 也 只 是 与 一 个 请 求 者 交流 ,如 采 应 党 者 连接 了 多 个 请 求 
者 , 则 会 以 平均 的 方式 从 各 个 请 求 者 谈 取 请 求 , 但 最 先 啊 应 的 是 最 后 谈 取 的 请 求 。 

3) 管道 模型 

在 一 个 管道 中 ,消息 的 接收 顷 被 定义 为 "Pull 
端 ” ,发布 端 被 定义 为 "Push 端 ” ,二 者 的 关系 可 以 
是 一 对 多 或 多 对 一 ,这 样 有 利于 以 并 行 的 方式 解 
决 Pull 端 读 取 能 力 不 足 或 Push 端 写 人 能 力 不 足 
的 情况 。 

如 图 21 一 38 所 示 , 在 这 个 模型 中 ,管道 是 单 
回 的 ,消息 只 能 由 Push 端 发 往 Pull 妆 。 在 一 对 多 
场景 下 ,Push 站 采用 了 平均 主义 的 负载 均衡 机 
制 ,所 有 消息 均衡 地 发 布 到 每 个 Pull 端 。 管 道 模 
型 内 部 及 用 了 LRU (Least Recently Used , 最 近 最 
小 使 用 ) 的 算法 来 找到 最 近 最 久未 工作 的 闲置 
Worker 线程 来 水 担 消息 的 运输 工作 。 

在 管道 模型 中 ,管道 具有 很 有 限 的 持久 化 能 
力 ,在 没有 Pull 端的 情况 下 发 布 的 消息 不 会 立即 


任务 


Worker 


Worker 


图 21 -38 管道 模型 
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丢弃 ,但 也 不 会 无 限 保留 。 

从 上 述 三 个 模型 中 我 们 也 可 以 看 出 ,ZMQ 会 区 分 消息 的 拥有 方 和 索取 方 , 我 们 将 它们 
分 别 定义 为 服务 疹 和 客户 产 , 二 者 没有 明确 的 局 动 顺 序 , 但 只 有 二 者 都 司 动 了 ,工作 模型 才 
会 起 作用 。 无 论 是 服务 弟 还 是 客户 闪 都 具有 主线 程 和 IO 工作 线程 ,其 局 动 和 工作 的 流程 
如 图 21 一 39 所 示 。 
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在 这 个 工作 流程 中 有 以 下 几 点 注意 事项 . 

> 主线 程 启动 IO 线程 ,并 为 IO 线程 创建 Mailbox 数据 结构 。 

> ZMO 的 工作 机 制 与 socket 中 TCP 的 机 制 类 似 , 例 如 connect、bind ,listen 等 操作 ,并且 
客户 端的 主线 程 要 与 服务 端的 主线 程 建立 连接 ,以 实现 命令 交互 。 

> 每 一 个 IO 线程 都 会 创建 session ,session 通过 管道 与 主线 程 通 信 。 

> 客户 闯 与 服务 端 之 间 的 IO 工作 线程 负责 消息 的 实际 交互 ,这 是 由 IO 线程 的 engine 
实现 的 。 

> 客户 端 与 服务 疹 之 间 的 IO 线程 交互 消息 的 机 制 遵照 上 述 三 种 模型 。 


3.2 RocketMQ 
RocketMQ 是 阿里 发 布 的 消息 中 辐 件 , 是 一 种 和 常用 的 典型 消息 队列 ,具有 开源 、 低 延迟 、 


高 可 靠 性 、 高 可 伸缩 性 ,使 用 门槛 低 、 支 持 分 布 式 和 高 可 用 部 署 等 特点 ,具体 如 下 ， 


> 文 持 发 布 -订阅 和 点 对 点 (P2P) 两 种 消息 模型 。 
> RocketMQ 中 的 所 有 消息 都 是 持久 化 的 ,可 以 落 盘 到 文件 中 存储 。 
。 RocketMQ 先 将 消息 写 人 页 面 高 速 缓 存 , 然 后 刷 盘 ( 写 人 磁盘 ) ,这 样 能 保证 内 存 与 
磁盘 中 都 有 一 份 相同 的 数据 ,访问 时 直接 从 内 存 读 取 即 可 。 
e 同时 ,RocketMQ 对 文件 读 写 做 了 优化 ,采用 内 存 映 射 方式 实现 读 写 。 这 样 就 把 磁 
盘 文 件 映 射 到 了 内 存 地 址 空间 里 ,避免 了 内 核 态 空间 到 用 户 态 空间 的 拷贝 。 
> 正 是 由 于 具有 强大 的 持久 化 能 力 , 消 息 的 优先 级 机 制 的 成 本 会 很 高 ,因此 RocketMQ 
文 持 以 其 他 方式 变相 或 者 部 分 支持 消息 优先 级 机 制 。 例 如 支持 单独 配置 某 个 高 优先 
级 消息 队列 ,并 与 其 他 普通 优先 级 队列 区 别 开 。 


> 具有 强大 的 消息 堆积 能 力 ,支持 10 亿 级 别 的 消息 堆积 ,不 会 因为 消息 堆积 而 影响 


> 文 持 先进 先 出 (FIFO) 机 制 , 可 以 文 持 严 格 的 消息 顺序 传递 策略 (有 序 消 息 类 型 ) 。 

> 支持 Pull 和 Push 两 种 消息 处 理 模式 。 

> Broker 中文 持 以 多 个 过 滤 进 程 的 方式 对 消息 进行 过 滤 ( Message Filter) 。 

> 单一 队列 具有 百 万 级 的 消息 堆积 能 力 。 

> 三 沁 文 持 JMS、MQTT 等 多 种 协议 。 

> 提供 Docker 镜像 用 于 隅 离 测试 和 云集 群 部 署 。 

> 具有 友好 的 运 维 界面 ,提供 配置 .指标 和 监控 等 功能 丰富 的 Dashboard( 仪 表盘 ) 。 

> 服务 端 使 用 Java 语言 编写 ,客户 端 则 支持 Java 和 C++ 语言 。 

与 大 多 数 消 息 队 列 一 样 ,RocketMQ 也 定义 了 生产 者 (Producer) 和 消费 者 ( Consumer ) 两 


种 角色 。 在 发 布 -订阅 模型 中 ,Consumer 订阅 了 Broker( 一 种 缓存 代理 ,相当 于 生产 者 和 消费 
者 之 间 的 缓存 中 介 ) 上 的 某 个 Topic( 是 一 种 对 消息 的 逻辑 分 类 ,相当 于 主题 消息 库 的 概念 ， 
RocketMQ 中 的 各 组 件 都 是 围绕 着 Topic 建立 起 对 应 关系 的 ) , 当 Producer 发 布 消息 到 Broker 
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害 时 心跳 告知 相关 > 有。 
上 状态， 如 Topic 信 息 一 立 雁 


opicA 
消 忆 发 庆 


21 一 40 ”RocketMQ 的 工作 流程 (图 片 来 自 CSDN ) 


如 图 21 -41 所 示 ,一 个 Topic 可 以 分 布 在 各 个 Broker 上 ,我们 将 一 个 Topic 分 布 在 一 个 
Broker 上 的 子 集 定义 为 一 个 Topic 分 片 ,分 片 的 目的 就 是 突破 单 点 的 资源 (带宽 .CPU .内存 
或 文件 存储 等 ) 限制 以 实现 水 平 扩展 。 将 Topic 分 片 再 切 分 为 若干 等 份 ,其 中 的 一 份 就 是 一 
个 Queue。 每 个 Topic 分 片 等 分 的 Queue 的 数量 可 以 不 同 ,由 用 户 在 创建 Topic 时 指定 。 
Consumer 根据 Broker 分 配 的 Queue 来 消费 数据 。Queue 是 负载 均衡 过 程 中 资源 分 配 的 基本 
单元 。 


Brokerl Broker2 Broker3 
TopicA 分 片 
Queue0 Queuel QueueU “Queuel QueueuU Queuel 


TopicA Queue2 Queue3 Queue2 Queue3 
Queue4 Queues 


21 一 41 在 各 个 Broker 上 分 布 的 Topic 分 片 与 Queue 


在 一 个 Consumer Group 内 ,Queue 与 Consumer 之 间 的 对 应 关系 是 多 对 一 关系 , 即 一 个 
Queue 最 多 只 能 分 配给 一 个 Consumer, 一 个 Cosumer 可 以 被 分 配 到 多 个 Queue。 由 于 每 个 
Queue 只 有 一 个 Consumer, 从 而 可 以 避免 消费 过 程 中 的 多 线程 处 理 切 换 和 资源 锁定 ,有 效 提 
高 各 Consumer 消费 的 并 行 度 和 处 理 效 率 。 

1 ) RocketMQ 的 生产 者 角色 

RocketMQ 具有 同步 发 送 ( 请求 和 啊 应 一 来 一 回 ) 异步 发 送 (Producer 通过 回调 接口 接 
收 来 日 Broker 的 啊 应 通知 ) 单 回 发 送 (Producer 只 负责 生产 和 发 送 消息 而 不 管 Broker 有 没 
有 发 回 啊 应 通知 或 触发 回调 ) 和 和 死 信 队列 (Dead Letter Queue )4 种 发 送 模式 ,其 中 死 信 队 列 
用 于 存放 由 于 某 些 原因 而 无 法 传递 的 消息 ,例如 处 理 失 败 的 消息 或 已 经 过 期 的 消息 等 。 

2) RocketMQ 的 消费 者 角色 

RocketMO 消费 者 角色 具有 集群 消费 广播 消费 和 基于 集群 消费 的 模拟 广播 消费 三 种 消 
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(1) 集群 消费 

如 图 21 -42 所 示 , 在 这 种 模型 中 ,每 条 消息 只 会 被 Consumer 集群 中 的 任意 一 个 成 员 消 
费 一 次 ,类似 于 “ 单 播 ” ,每 条 消息 不 会 被 拷贝 分 发 。 每 个 成 员 订 阅 的 Topic 的 Tag 都 一 样 , 它 
们 的 消费 进度 都 存储 在 Broker 上 。 这 种 模型 并 不 能 保证 每 一 次 消息 失败 时 的 重 试 都 被 精准 
投递 到 同一 个 Consumer 成 员 中 ,当然 RocketMQ 也 不 允许 无 限制 地 失败 重 试 。 


ConsumerlD1 


192.1068.1.] 


MiessageN 
ConsumerlD2 
lonpic+l1a Nessage2 
Ee - 192.168.1.2 
人工 。 
Nessagel 


ConsumerlD’»3 


192.1068.1.3 


21-42 集群 消费 的 模型 
(2) 三 播 消 费 
如 图 21 -43 所 示 在 这 种 模型 中 每 条 消息 会 被 Consumer 集群 中 的 每 一 个 成 员 消 费 一 
次 ,有 几 个 成 员 就 消费 几 次 ,类 似 于 “广播 ” ,每 条 消息 都 会 被 找 贝 分 发 。 每 个 成 员 订 阅 的 
Topic 的 Tag 都 一 样 ,而 且 这 种 模型 中 Consumer 的 消费 进度 存放 在 Consumer 目 己 号 上 而 不 
是 Broker 中 ,因此 Broker 不 擎 握 全 局 进度 ,这 可 能 会 导致 消息 的 重复 。 如 末 模 型 中 消息 的 消 
费 失 败 了 ,Broker 是 不 会 进行 重 试 投递 的 ,因为 Broker 不 知道 消费 失败 了 。 


ConsumerlDl 


192.168.1.1 


(MessageN 


Toplic+Tasg Message2 


Nessagel 


[92.108.1.3 


21 一 43 广播 消费 的 模型 
(3) 基于 集群 消费 的 模拟 广播 消费 
如 图 21 -44 所 示 , 在 这 种 模型 中 ,每 个 Consumer 都 属于 不 同 的 Consumer 集群 ,当然 每 
个 Consumer 集群 也 可 以 包含 多 个 Consumer ,每 个 Consumer 的 消费 逻辑 可 以 不 一 样 。 


应 用 软件 开发 协议 栈 oa 

在 这 种 模型 中 ,每 个 集群 都 订阅 相同 的 Topic。 针 对 每 一 条 消息 , Broker 会 对 每 个 集群 
都 做 拷贝 分 发 ,因此 也 实现 了 广播 的 效果 。 
ConsumerlD1 


192.168.1.1 


NMessageN }A NMessage2 }A Messagel 


TopicrTas 
MiessageN 六 Messape2 


192.108.1.3 


图 21-44 基于 集群 消费 模拟 广播 消费 的 模型 


在 上 述 几 个 模型 中 ,消费 端的 实现 逻辑 必须 要 保证 消息 的 知 等 性 , 即 无 论 消 息 被 人 处理 多 
少 次 ,最终 结果 都 一 样 。 因 为 RocketMQ 虽然 文 持 消息 顺序 传递 ,但 并 没有 过 多 关注 顺序 消 
费 和 重复 消费 的 问题 。 

3) RocketMQ 的 消息 类 型 

RocketMQ 的 消息 分 为 普通 消息 .有 序 消 息 和 延 时 消息 三 大 类 ,其 中 普通 消息 可 以 理解 
为 无 序 消息 ,而 有 序 消息 又 分 为 两 小 类 , 即 全 局 有 序 消息 和 局 部 有 序 消息 ,如 图 21 - 45 
所 示 。 

> 全 局 有 序 消息 :一 个 Broker 对 每 个 Topic 只 建 有 一 个 消息 传送 队列 ,吞吐 量 比较 小 。 

> 局 部 有 序 消息 :一 个 Broker 对 每 个 Topic 可 以 建 有 多 个 消息 传送 队列 ,每 个 队列 要 保 

证 彼此 的 消息 不 重复 。 


| 
Producer 


Broker 


rder ID 订单 付款 [订单 创建 
为 奇数 
为 全 才 订单 付款 [订单 创建 
Queul | 


OQueuel 


Producer 


有 序 发 送 有 序 消费 
图 21-4s ”全 局 有 友和 局 部 有 序 消 奶 


4) RocketMQ 的 框架 
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Cluster) .缓冲 区 集群 (Broker Cluster) 和 名 称 服 务 集 群 ( NameServer Cluster) ,如 图 21 - 46 
所 示 。 


每 隔 10 秒 扫描 还 存活 的 连接 
冷 钟 3 没 有 发 送 心跳 的 会 入 关闭 


NameServer—l NamesServer—N 


i as。 本 m 加 加 mm mm mm am am am mm ee 


| 
| \ 
| NameServer 集 群 
< 连接 长 连接 ， 
| | 每 限 30 寺 竺 询 全 同和 刘 询 
To opic 队 列 信息 | Topic| 欠 列 信 自 息 
| ! 
| | Producer Producer Consumer Consumer ， | 
| ) Producer Producer Consumer Consumer ， | 
.Producer 集 群 ._..， 长 连接 on 
1 < 连接 0 类 有 回 Dn i er 长 连接 
的 
隔 30 秒 各 Brok PP ' 生 院 30 称 和 
bre 息 | 目 身 的 Topic 配 置信 息 人 ' Broker 


发 送 心 跳 信息 


| 

| 

| 

| 

' Broker Broker ' ) 
' Master—] Master—N '! | 
消息 同步 。 ”消息 同步 | 
Broker Broker | 
| Slave-—l Slave—N | 
\ 

| 

| 

| 

| 


Broker 和 集群 


= a 


| 
ce 订 “异步 复制 异步 复制 i 一 -一 -~------- 一 一， 
| 


每 隔 10 秒 扫描 还 存活 的 连接 ， 
2 分 钟 内 没有 发 送 心 帐 的 会 被 关闭 


图 21 一 46 ”RocketMOQ 架构 


> 生产 者 集群 (Producer Cluster ) : 负责 生产 消息 ,集群 中 的 每 个 Producer 成 员 都 与 
NameServer Cluster 中 的 一 个 节点 维持 长 连接 关系 。 
。 每 个 Producer 成 员 定 期 从 NameServer 获取 Topic 的 路 由 信息 ,并 与 提供 Topic 服务 
的 Broker 建立 长 连接 ,同时 维持 保 活 心跳 。 
e Producer 只 将 消息 发 送 到 Broker 上 而 非 直接 发 给 Consumer。 
> 消费 者 集群 (Consumer Cluster ) :集群 中 的 每 个 Consumer 都 与 Broker( Topic 的 提供 
者 ) 建 立 长 连接 , 且 需 要 文 持 癌 Broker 的 主 从 节点 订阅 消息 。 
e。 集群 中 每 个 Consumer 订阅 的 Tag 必须 一 样 。 
e Consumer 每 隔 一 段 时 间 回 Broker 发 送 Pull 消息 的 请 求 ,Broker 收 到 这 些 请 求 后 如 
果 有 消息 数据 则 立即 向 Consumer 返回 ,否则 就 会 阻塞 直到 有 消息 数据 才 会 返回 。 
e Consumer 接收 到 消 垦 数据 后 再 调用 上 层 消 费 者 进程 设置 的 listen 方法 。 
> 缓冲 区 集群 ( Broker Cluster ) : Broker 提供 了 Topic 和 队列 机 制 来 进行 一 定 程度 的 持 
久 化 工作 ,同时 支持 Push 和 Pull 两 种 消息 ape So 四 SU 
每 个 Broker 与 NameServer Cluster 中 的 


2] 
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上 县 注册 到 所 有 NameServer 中 (通知 Topic 的 路 由 ) 。 
> 名 称 服务 集群 ( NameServer Cluster ) :NameServer 提供 了 轻 量 级 的 服务 发 现 和 路 由 机 
制 ,每 个 NameServer 都 记录 了 完整 的 Topic 路 由 信息 ,并 文 持 快 速 存 储 扩展 。 
从 这 些 组 件 的 摘 述 中 可 以 总 结 出 ,Producer 是 消息 的 生产 商 ,Consumer 是 消息 的 最 终 消 
费 者 ,而 Broker 则 是 一 个 尽职 尽责 ,不 赚 差 价 的 中 间 商 ,这 三 者 中 传递 的 消息 数据 无 论 走 哪 
条 路 都 要 征求 NameServer 的 意见 。 
在 海量 数据 场景 下 , Consumer 会 通过 RebalanceService 线程 每 隔 一 段 时 间 做 一 次 基于 
Topic 的 队列 负载 均衡 ,对 于 这 些 队 列 中 的 消息 ,可 以 按照 平均 分 配 的 策略 进行 均衡 化 拉 取 。 


本 章 小 结 


Windows 原生 就 文 持 了 右 干 通信 模型 ,这 些 模型 的 核心 任务 就 是 事件 的 多 路 分 离 。 在 
这 个 大 前 提 下 ,根据 工作 机 制 的 不 同 又 可 以 分 为 0 完成 端口 模型 select 模型 和 重 琶 1/0 
模型 三 大 类 。 这 些 模 型 是 应 用 软件 中 各 种 用 户 态 通信 和 框架 的 基础 。 

应 用 软件 一 般 使 用 通信 框架 负责 通信 和 传输 工作 ,这 是 因为 通信 框架 具有 展 好 的 封 沪 
性 和 易 用 性 。 在 Windows 通信 框架 中 ,ACE 算是 最 庞大 .最 复杂 .最 通用 也 是 最 完善 的 通信 
框架 了 。 除 此 之 外 还 包括 专门 用 于 互联 网 媒体 通信 的 WebRTC 框架 、 用 于 Web 前 并 的 Netty 
框架 以 及 分 布 式微 服务 环境 下 的 Istio 框架 等 。 通 信和 框架 针对 具体 的 业务 场景 侧重 点 各 有 
不 同 。 

消息 队列 作为 一 种 能 够 “前 峰 填 谷 ” 的 通信 组 件 , 其 承担 的 任务 越 来 越 重要 ,特别 是 在 海 
量 数据 高 并 发 的 场景 下 ,消息 队列 是 必 备 的 。 目 前 开源 和 商用 的 消息 队列 非常 多 ,资料 也 很 
人 全面, 本文 没有 事 无 巨细 地 都 列举 出 来 。 
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第 @2 章 ”新 一 代 通 信 技 术 


新 一 代 通 信 技 术 方 兴 未 艾 ,特别 是 在 SG 即将 到 来 的 大 环境 下 ,为 了 应 对 高 带宽 海量 数 
据 传 输 ,需要 有 新 的 通信 技术 作为 支撑 ,以 打破 传统 通信 设备 和 技术 的 瓶颈 与 壁垒。 
新 的 通信 技术 从 软件 方面 来 说 包括 两 个 方 回 ,一 个 是 软件 定义 网 络 (SDN ) , 另 一 个 则 是 
高 性 能 通信 协议 栈 ,后 者 (例如 DPDK .SPDK 等 ) 是 前 者 的 基础 支撑 。 

在 本 章 中 我 们 按照 图 22 -1 所 示 的 提纲 从 两 个 方向 予以 展开 ,首先 介绍 SDN 的 相关 技 


传统 网 络 在 5G 时 代 有 什么 壁 全 和 问题 ? 
SDN 的 定 尺 和 技术 特点 ,在 5G 时代 能 解决 什么 问题 ? 


问题 的 提出 


SDN 数 据 平 面 的 设备 、 工 作 机 制 


| SDN 的 框架 ”中 SDN 控制 平面 的 接口 、 工 作 机 制 
SDN 应 用 平面 的 位 置 


OpenFlow 演 进 历史 
OpenFlow 报 文 种 类 


什么 是 汶 表 ? 
流 表 在 不 同 版 本 的 OpenFlow 协 议 中 有 什么 异同 ? 


OpenFlow 协 议 < 


SDN 的 内 部 机 制 < 


| 检 路 发 现 : LLDP 的 工作 机 制 
SDN 的 开源 和 闭 源 项 目 ( 控制 器 ) , OpenDaylight 竺 


nl i ES is Ln 
‘= Ee 
之 
和 I 


软件 走 义 网 络 5 3D-WAN 


SDN 的 往生 5 
慎 笃 星 NFY ? NFV 的 重要 各 词 解 程 
| ” ETSI 定义 的 NFV 参 考 架 构 
， ETsSI 二 你 的 NFY 接 口 体系 : 
什么 是 网 络 切 片 ? 为 什么 要 网 络 切片 ? 
网 络 切 片 5/ ”网 络 切片 的 分 类 和 部 署 方式 
通信 技术 时 网 络 切片 的 生命 周期 管理 
等 同 于 高 性 能 通信 协议 栈 
现 有 网 络 协议 栈 的 瓶颈 与 壁 从 、DPDK 与 传统 协议 栈 驱 动 的 异同 
DPDK 框 架 的 关键 技术 
DPDK 框 总 的 结构 和 工作 流程 
DPDK 框 架 报 文 处 理 的 两 种 异型 ; 流水 线 模型 和 RTC 模 型 
基于 DPDK 的 成 熟 框 菜 和 模块 ， 用 于 NVMe SSsD 存 储 驱 动 栈 
什么 是 RDMA ? RDMA 的 优 执 是 什么 了 
RDMA 服 务 的 梁 构 和 基于 RDMA 的 三 种 传输 方式 


' IB, WWARP. RocCE We 


十 
2 th Lb 


-人 


| 
”DpDkKE 怠 = 
| 


Infinigand 协 议 及 其 机 抽 ~“*、 
RoCE 协 议 及 其 机 制 ”NN 
SN WARP 协 议 及 其 机 油 
| 什么 是 HDD 和 SSD ， 各 有 什么 特点 ? 


什么 是 NVMe ? NVMe 的 工作 机 制 是 什么 ? 
| 与 存 情 主 机 等 要 素 之 间 的 关系 是 什么 ? 


1. 线程 与 外 理 器 核 的 管理 角度 


SPDK 的 设计 特点 ”| 2. 线程 间 通 信和 的 角度 
3. MO 处 理 无 锁 化 机 制 的 角度 


SPDK 的 框架 特点 : 自 底 向 上 包括 了 三 层 , 这 三 居 的 作用 是 什么 ? 


图 22 -1 本 章 提纲 


应 用 软件 开发 协议 栈 LN 
术 和 衍生 产品 ,再 介绍 基于 数据 平面 加 速 技 术 的 高 性 能 通信 协议 栈 。 


22.1 软件 定义 网 络 


随 着 5G 通信 、 大 数据 和 云 计 算 等 技术 的 发 展 , 传 统 网 络 设备 中 数据 转发 与 策略 控制 集成 
在 一 起 的 传输 机 制 越 来 越 不 适应 数据 量 剧 增 审 来 的 变化 。 特 别 是 随 厦 5G 技术 及 其 应 用 的 全 
面 展开 ,传统 交换 设备 已 不 能 适应 数据 转发 .路 由 寻 址 .QoSs 保障 等 业务 ,并 造成 了 以 下 问题 : 
> 路 由 转发 协议 过 于 复杂 :在 传统 网 络 中 ,由 于 数据 转发 面 (数据 平面 ) 与 路 由 控制 面 
(控制 平面 ) 被 集成 到 一 台 设 备 中 ,作为 传输 设备 要 处 理 ICP .BCP MPLS 等 多 种 封包 
和 路 由 协议 ,不 能 全 心 全 意 为 数据 转发 服务 。 
> 路 由 和 转发 策略 调整 难度 很 大 ,不 能 适应 业务 层面 频繁 变化 的 需要 :传统 传输 设备 的 
路 由 和 转发 策略 是 配置 在 本 地 设备 中 的 ,对 于 QoS 等 需要 经 并 改 变 路 由 和 转发 策略 
的 业务 及 服务 的 啊 应 不 灵活 。 
> 数据 平面 与 控制 平面 耦合 度 高 :传统 传输 设备 将 数据 平面 与 控制 平面 集成 在 一 起 ,使 
设备 成 为 一 个 个 “ 堡 允 ” ,用 户 只 能 成 套 地 采用 固定 厂家 的 设备 , 绑 架 了 用 户 与 三 家， 
不 利于 网 络 生态 的 建设 。 
上 述 问 题 在 5G 时 代 来 临 之 际会 更 加 尖锐 。 在 这 种 情况 下 ,SDN 和 NFV 诞生 了 。2006 
年 斯 坦 福 大 学 首先 提出 了 OpenFlow 的 概念 ,通过 OpenFlow 实现 网 络 的 可 编程 能 力 。 在 这 
种 思想 的 指引 下 ,SDN( Software Defined Network ,软件 定义 网 络 ) 应运 而 生 。 正 如 其 字面 意 
思 ,在 OpenFlow 的 催化 作用 下 ,SDN 实现 了 网 络 能 力 的 可 编程 化 .网 络 基础 设施 的 通用 化 、 
数据 平面 与 控制 平面 的 解 看 化 和 路 由 案 略 下 发 的 灵活 化 。 其 中 网 络 能 力 的 可 编程 化 是 SDN 
的 基础 ,其 发 展 历史 如 图 22 -2 所 示 。 


(1 ) 网 络 设备 可 配置 (3) openFov 
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CLI,Webh CU 
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数据 平面 | 


CE | | GE 
图 22-2 网 络 可 编程 发 展 历史 

NFV 则 在 SDN 的 基础 上 更 进一步 提出 了 网 络 功能 虚拟 化 的 概念 ,瞄准 的 是 网 络 实体 的 
虚拟 化 使 用 。NFV ( Network Function Virtualization , 网 络 功能 虚拟 化 ) 于 2012 年 由 美国 
AT&T .英国 电信 等 网 络 运 峭 商 在 ETSI( 欧洲 通信 标准 协会 ) 提 出 。NFV 所在 基于 X86/X64 
守 染 构 的 通用 便 件 基 础 上 使 网 络 功 能 抽象 化 .服务 化 软件 化 ,与 便 件 解 看 化 ,并 基于 虚拟 化 
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技术 使 网 络 服务 运行 于 虚拟 机 之 上 ,进一步 提升 了 通用 硬件 的 利用 率 和 网 络 效能 。 
22.1.1 SDN 


SDN 的 主旨 是 通过 软件 来 定义 网 络 ,很 巧妙 地 解 耦 了 传输 设备 的 数据 平面 和 控制 平面 ， 
因此 市 来 如 下 的 好 处 . 
> 数据 平面 可 以 专心 致 志 地 负责 转发 数据 的 工作 ,其 处 理 网 络 包 的 栈 深 大 大 降低 。 例 
如 原先 可 能 要 解析 到 第 三 层 甚至 第 四 层 协议 ,并 通过 查 表 来 决定 如 何 处 理 网 络 包 ,和解 
看 之 后 数据 平面 可 能 只 需要 解析 到 第 二 层 并 通过 预先 由 控制 平面 (SDN 控制 器 ) 下 
发 的 转发 策略 就 可 以 知道 往 哪 里 转 转 给 谁 。 
> 控制 平面 (SDN 控制 器 ) 需 要 处 理 的 数据 也 大 大 减少 了 ,数据 平面 只 有 在 遇 到 陌生 的 、 
先前 没有 遇 到 过 的 网 络 包 才 会 打扰 咨询 控制 平面 如 何 处 理 网 络 包 。 控 制 平面 会 通过 
OpenFlow 协议 将 此 类 包 的 转发 策略 下 发 给 数据 平面 ,自己 则 悠闲 地 “继续 度假 ”。 
> 控制 平面 对 外 发 布 北向 接口 (例如 Restful) , 供 上 层 网 络 管控 和 业务 系统 使 用 。 也 可 
以 发 布 东西 向 接口 并 与 其 他 异 构 网 络 进行 对 接 , 以 支持 其 他 异 构 网 络 的 互联 互通 。 
这 样 做 大 大 简化 了 上 层 业 务 系统 的 开发 难度 ,使 之 不 再 需要 与 具体 的 传输 协议 打 交 
道 了 。 
SDN 体系 主要 分 为 两 个 技术 派别 。 
> 开放 网 络 基金 会 (Open Networking Foundation ,ONF ) :包括 德国 电信 (DT)、 
Facebook \ Google 微软 、Verizon、Yahoo .日 本 NTT 电信 .高 成 等 。 
> Linux 基金 会 (Linux Foundation ) :包括 思科 (Cisco) IJBM .微软 .Big Switch 、 博 科 、 思 
杰 .戴尔 .爱立信 富士通. 英特尔 、. 瞻 博 网 络 .微软 NEC 惠普、. 红 帽 和 Vmware 等 ,并 
提出 了 开源 项 目 OpenDaylight。 
22.1.1.1 SDN 框架 结构 
SDN 最 大 的 特点 就 是 数据 平面 和 控制 平面 的 分 离 ( 转 发 与 控制 分 离 , 简 称 转 控 分 离 )， 
传输 交换 设备 将 其 中 的 控制 面板 (决定 了 如 何 路 由 转发 ) “提升 "到 了 SDN 控制 融 ,两 个 层面 
采用 OpenFlow 协议 进行 通信 ,如 图 22 -3 所 示 。 
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22 -3 ” 转 控 分 离 的 SDN 框架 结构 
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1. SDN 数据 平面 
传统 交换 机 要 做 的 事情 就 是 在 OSI 参考 模型 的 二 层 或 三 层 转 发 网 络 包 ,包括 转发 策略 
的 学 习 / 更 新 以 及 以 太 帧 转发 等 功能 。 在 SDN 中 ,转发 策略 的 学 习 和 更 新 这 种 更 偏向 于 控 
制 的 行为 是 由 SDN 控制 硕 完 成 的 ,SDN 数据 平面 交换 机 只 是 负 贡 转发 表 ( 流 表 ) 的 维护 和 以 
太 帧 转发 的 工作 。 在 SDN 体系 下 ,数据 平面 就 是 指 SDN 交换 机 。SDN 交换 机 可 以 分 为 纯 
SDN 交换 机 混合 交换 机 \ 白 盒 SDN 交换 机 等 类 型 。 
> 纯 SDN 交换 机 ;只 支持 OpenFlow 协议 ,负责 数据 包 转 发 和 内 部 流 表 维 护 ,所 有 流 表 均 
由 SDN 控制 硕 下 发 。 
e 数据 包 进 入 交换 机 时 ,交换 机 查找 流 表 以 确认 是 否 有 流 表 项 匹配 。 
。 右 有 流 表 项 匹配 成 功 , 则 执行 该 表 项 指定 的 操作 ; 夺 无 , 则 查看 是 否 已 设置 丢弃 。 
。 右 已 设置 丢弃 , 则 丢弃 此 数据 包 ; 硅 没有 设置 丢弃 , 则 根据 设置 转发 该 数据 包 至 
SDN 控制 硕 , 待 控制 硕 下 发 对 应 流 表 项 后 根据 此 流 表 项 进行 相关 操作 。 

> 混合 交换 机 : 文 持 OpenFlow 协议 和 传统 的 转发 协议 , 适 配 性 更 强 。 

> 白 盒 SDN 交换 机 :所 谓 白 盒 SDN 交换 机 就 是 交换 机 硬件 (芯片 + 机 体 + 操作 系统 ) 
和 交换 机 软件 可 分 离 的 SDN 交换 机 ,用 户 可 以 目 行 选择 软 人 硬件 ,以 获得 最 大 的 收益 。 
但 白 盒 SDN 交换 机 要 求 操作 系统 (例如 开源 的 OpenSwiteh ) 有 具有 良好 的 兼容 性 , 既 能 
回 下 兼容 芯片 和 其 他 人 硬件 ,也 能 回 上 承载 所 有 软件 应 用 。 可 以 看 出 ,日 盒 SDN 交换 
机 是 软 人 硬件 分 离 在 交换 机 中 的 具体 实践 。 日 盒 SDN 交换 机 概念 的 产生 得 益 于 2011 
年 由 Facebook 替 头 成 立 的 OCP( Open Compute Project) 项 目 ,该 项 目 着 眼 于 开发 数据 
中 心 基础 设施 架构 。OCP 的 Open Network 子 项 目 则 定义 了 交换 机 的 硬件 和 世 片 的 
SAI 及 版 本 管理 标准 ,使 得 交换 机 硬件 具有 了 可 符 换 性 。 

前 文 提 过 ,SDN 交换 机 的 控制 一 般 采 用 OpenFlow 协议 。 虽 然 OpenFlow 协议 只 是 SDN 
交换 机 中 应 用 最 广泛 的 控制 协议 ,不 是 唯一 的 控制 协议 ,但 在 SDN 的 协议 日 益 规 范 化 的 大 
趋势 下 ,OpenFlow 已 经 默认 成 为 SDN 交换 机 的 标准 控制 协议 。 因 此 在 本 文中 ,我 们 也 称 
SDN 交换 机 为 OpenFlow 交换 机 , 称 SDN 控制 希 为 OpenFlow 控制 器 ,就 是 为 了 突出 它们 的 
协议 属性 。 从 是 否 仅 支持 OpenFlow 协议 的 角度 看 ,OpenFlow 交换 机 可 分 为 以 下 两 类 : 

> OpenFlow-Only Switch . 仪 支持 OpenFlow 转发 。 

> OpenFlow-Hybrid Switch: 既 支持 OpenFlow 转发 ,也 支持 普通 的 二 .三 层 转发 。 

OpenFlow 交换 机 采用 了 虚拟 化 的 设计 思想 ,一 个 交换 机 可 以 支持 多 个 OpenFlow 实例 ， 
每 个 实例 相当 于 一 个 虚拟 机 环境 ,因此 每 个 实例 也 可 以 被 看 作 一 台独 立 的 虚拟 交换 机 。 每 
个 OpenFlow 实例 可 以 单独 连接 OpenFlow 控制 硕 , 因 此 一 个 OpenFlow 交换 机 也 可 以 同时 被 
多 个 OpenFlow 控制 希 控 制 。 

除了 控制 协议 ,SDN 交换 机 的 配置 一 般 采 用 OF-Config 协议 。OF-Config 协议 于 2012 年 
由 ONF 组 织 发 布 , 其 主要 目标 是 在 支持 OpenFlow 的 网 络 设备 上 实现 基本 功能 配置 ,例如 配 
置 一 个 或 多 个 控制 器 的 卫 地 址 .设备 队列 及 端口 等 资源 , 文 持 远程 修改 设备 的 端口 状态 等 。 
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SDN 交换 机 在 收 到 网 络 包 分 组 时 首先 对 包头 进行 解析 ,匹配 交换 机 内 部 的 流 表 , 并 根据 
流 表 规 定 的 动作 处 理 所 收 到 的 网 络 包 ,其 处 理 流 程 如 图 22 -4 所 示 。 


、 控制 器 


5 
流 表 调度 器 , 


oD? 
SDN 交 换 机 


图 22-4 SDN 交换 机 的 工作 流程 


(1) SDN 交换 机 接收 到 网 络 包 分 组 时 解析 分 组 头 ,并 在 流 表 中 查询 该 分 组 是 否 有 流 和 
动作 的 对 应 规则 。 

。 如 果 有 对 应 规则 , 则 转发 到 相应 的 端口 或 丢弃 该 分 组 (丢弃 也 是 一 种 动作 ) ,流程 结束 。 
。 如 采 没 有 对 应 规则 ,SDN 交换 机 将 该 数据 分 组 封 痛 为 OpenFlow 的 Packet-in 报 文 并 
上 传 至 SDN 控制 器 。 

(2) SDN 控制 大 收 到 Packet-in 报 文 后 同 SDN 交换 机 下 发 对 应 的 转发 策略 流 表 项 。 

(3) SDN 交换 机 将 该 流 表 项 加 入 流 表 中 ,并 将 步骤 (1) 中 接收 到 的 网 络 包 及 后 续 同 类 型 
网 络 包 ( 比如 相同 五 元 组 或 相同 的 IN 问 口 ) 转 发 到 指定 的 冰 口 中 。 

在 解析 分 组 头 时 ,如果 为 二 层 转发 则 只 需要 解析 以 太 帧 的 帧 头 ;如 果 为 三 层 转发 则 需要 
解析 到 IP 包 的 包头 ;如 采 为 更 高 层 的 传输 应 用 则 可 以 继 组 回 上 解析 四 层 五 层 的 包头 。 这 
些 解 析 动 作 的 规则 是 由 SDN 控制 希 制 定 和 下 发 的 ,而 真正 的 决策 者 是 比 SDN 控制 锅 更 上 层 
的 网 络 传输 业务 ,SDN 控制 硕 只 是 一 个 “中层 领 导 ” ,负责 翻 幸 和 下 发 决策 者 的 指令 。 

在 SDN 交换 机 与 控制 希 交 互 的 过 程 中 ,为 了 保证 数据 传输 的 安全 性 和 不 可 破 详 性 ,可 
以 采用 安全 传输 层 协议 (TLS ) 对 OpenFlow 协议 进行 加 密封 装 , 构 贷 安全 通道 。 如 果 安 全 通 
道 采 用 TLS 连接 加 密 , 当 交 换 机 局 动 时 ,会 答 试 连接 到 控制 硕 的 6633 TCP 端口 (OpenFlow 病 
口 默认 的 建议 设置 为 6633) ,双方 通过 交换 证 书 进行 认证 。 因 此 ,在 加 密 时 ,每 个 交换 机 至 
少 需 配置 两 个 证 书 。 

交换 机 可 以 通过 人 窗 易 的 队列 机 制 为 QoS 提供 有 限 的 支持 。 每 个 交换 机 病 口 可 以 关联 奢 
二 个 队列 ,这些 队 列 可 以 提供 队列 缓冲 等 机 制 或 功能 ,并 可 以 通过 外 部 配置 工具 对 这 些 队 列 
进行 配置 。 在 交换 机 中 ,每 个 队列 都 由 一 个 对 应 的 数据 结构 描述 ,该 数据 结构 包含 了 队列 
ID 队列 关联 的 端口 .最 小 传输 速率 保证 .最 大 传输 速率 限制 .计数 硕 等 成 员 变 量 。OpenFlow 
的 流 表 动作 中 有 个 Set-Queue 动作 ,就 是 用 于 将 一 个 队列 流 表 项 映射 到 已 配置 好 的 关口 上 ， 
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当 网 络 报 文 分 组 经 过 该 流 表 项 时 就 被 转发 到 对 应 的 队列 中 了 。 

OpenFlow 1.3 更 是 定义 了 计量 表 ( Meter Table ) ,用 于 和 触发 各 种 与 性 能 相关 的 动作 并 作 
用 在 流 上 。 

2. SDN 控制 平面 

SDN 控制 器 是 控制 平面 的 具体 执行 者 ,也 是 SDN 网 络 架 构 的 核心 。 控 制 器 是 一 个 全 局 
的 集中 式 网 络 控制 单元 ,具有 高 屋 建 领 般 的 视野 和 格局 。 一 般 的 路 由 选择 控制 都 是 局 部 的 
分 布 式 ,路 由 需 在 目 治 系统 之 中 或 之 间 通 过 内 部 网 关 协 议 ( Interior Gateway Protocol,IGP ) 或 
外 部 网 关 协 议 (Exterior Gateway Protocol,EGP) 发 现 路 由 拓扑 ,并 基于 此 计算 最 短路 径 。 但 无 
论 是 ICP 还 是 EGP ,在 遇 到 网 络 阻塞 和 中 断 的 时 候 ,都 是 由 离 故障 节点 最 近 的 路 由 融 最 先 感 
知 , 且 无 法 立即 回 全 网 进行 通告 。 这 也 是 非 集中 式 控 制 系统 的 通病 。 一 般 情 况 下 ,SDN 控制 
融 在 一 个 SDNCSDN 域 ) 中 只 有 一 个 ( 灾 备 的 不 在 此 考虑 之 列 ) , 当 遇 到 阻塞 和 中 断 时 ,下 层 
的 SDN 交换 机 会 将 信息 通告 给 SDN 控制 锅 , 在 遇 到 要 流 经 故障 节点 的 流量 时 ,控制 锅 会 通 
过 更 改 流 表 项 动作 的 方式 将 其 集中 调度 到 别 的 转发 路 径 上 。 

SDN 控制 平面 的 任务 包括 : 

> 接收 上 层 应 用 程序 的 网 络 控制 请 求 并 翻译 成 SDN 数据 平面 的 特定 指令 。 

通过 OpenFlow 等 协议 和 癌 SDN 交换 机 下 发 流 表 项 以 控制 数据 流 走 问 。 

> 通过 东西 回 接口 联通 同 构 或 异 构 的 外 域 网 络 。 

> 路 由 选择 ,负责 收集 路 由 和 QoS 信息 (例如 节点 连通 性 和 传输 的 网 络 时 延 等 ) 并 计算 

> 收集 SDN 交换 机 的 告警 信息 ,处理 SDN 交换 机 上 报 的 陌生 报 文 分 组 。 
> 集中 管理 SDN 交换 机 资源 ,并 维护 交换 机 之 间 的 连接 拓扑 信息 ,支持 通过 OF-Config 
等 协议 配置 交换 机 。 

> 集中 管理 SDN 交换 机 的 流量 信息 ,收集 统计 流量 数据 。 

> 回应 用 层 提 供 功 能 支持 。 包 括 提 供 拓 扑 结构 、 网 络 状态 .网络 统 计 等 统计 分 析 类 功 
能 ,也 包括 网 络 配置 管理 网络 监控 网络 故 障 排除 .网 络 安全 胰 略 设置 等 网 络 目 动 化 

SDN 控制 锅 包 含 东 西南. 北 4 个 方向 的 接口 ,其 中 东西 癌 接口 为 非 必要 接口 ,只 在 存 
在 多 个 网 络 的 情况 下 才 需 要 ;南北 向 接口 为 必要 接口 , 南 向 的 协议 面向 SDN 交换 机 ,一 般 
为 OpenFlow( 用 于 控制 ) 和 OF-Config( 用 于 配置 ) , 北 回 接口 供 上 层 应 用 和 云 管 理 平 台 控 制 
SDN 网 络 ,一 般 为 Restful API, 如 图 22 -5 所 示 。 

SDN 诞生 的 初衷 之 一 就 是 实现 数据 平面 与 控制 平面 解 耦 ,打破 目前 控制 器 与 数据 转发 
需 被 少数 厂商 人 垄断 的 窘境 。 不 过 从 目前 的 情况 来 看 ,SDN 控制 需 厂 商 大 多 仍 是 采用 私有 协 
议 与 SDN 交换 机 通信 互联 ,并 没有 实现 彻底 的 解 耦 。 这 也 是 通信 行业 的 现实 情况 。 

除了 南 .北向 协议 ,SDN 的 东 .西向 协议 针对 的 是 网 络 域 之 间 的 互联 互通 。 不 过 东 . 西 回 
接口 也 没有 固定 的 协议 或 者 标准 可 以 遵循 。 每 个 SDN 域 就 是 一 个 日 治 系统 , 每 个 日 治 系统 
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e 网 络 资源 统一 管理 
e 基于 API 的 应 用 开发 


se 开发 的 Restful API 
e@ 网络 访 划 私有 接口 


商品 接口 
网 络 设备 儿 网 络 设备 


OpenFlow,OF—Config 


e。 局 性 能 数据 转发 
多 级 流 表 处 理 


图 22-5 SDN 控制 兹 的 南北 同 接口 


有 具有 一 个 SDN 控制 希 ,当然 SDN 控制 磊 下 的 域 可 大 可 小 。 东 ,西向 协议 不 仅 要 处 理 同 构 域 
(都 是 SDN 域 ) 的 互联 ,也 要 处 理 异 构 域 (不 都 是 SDN 域 ) 的 互联 。 因 此 ,SDN 控制 锅 必 须 具 
有 BGP( 边界 网 关 协 议 , 是 基于 TCP/IP 的 互联 网 的 默认 外 部 路 由 协议 ) 的 能 力 并 且 能 够 获 
取 到 相 邻 BGP 实体 的 位 置信 息 , 其 工作 过 程 如 图 22 -6 所 示 ,大致 如 下 : 

(1) SDN 控制 硕 司 动 并 触发 和 激活 BGP 模块 。 

(2) BGP 模块 回 每 个 相 邻 的 BGP 实体 (可 能 是 其 他 域 中 SDN 控制 硕 的 BGP 模块 ,或 是 
非 SDN 域 中 的 网 关 设 备 ) 创 建 TCP 连接 , 相 邻 的 BGP 实体 被 称 为 “邻居 ”。 

(3) TCP 连接 创建 完成 后 ,BGP 模块 向 邻居 发 送 Open 报 文 ,通过 Open 报 文 交换 路 由 能 
力 信 息 ,交换 完成 后 一 条 BGP 连接 也 就 建立 成 功 了 。 

(4) BGP 模块 问 已 经 建立 BGP 连接 的 邻居 发 送 Update 报 文 ,以 交换 彼此 的 网 络 层 可 达 
性 信息 。 选 择 SDN 控制 器 之 间 的 最 合适 路 径 时 使 用 该 可 达 性 信息 和 QoS 信息 等 ,并 且 将 可 
达 性 信息 更 新 到 控制 血本 地 的 路 由 选择 信息 库 ( RIB) ,以 便 对 数据 平面 的 SDN 交换 机 设置 
流 信息 。 

(5) 通过 RIB 中 的 多 条 可 用 路 径 进 行路 由 选择 ,创建 最 佳 可 用 路 由 。 当 有 网 络 包 分 组 
需要 在 SDN 域 间 穿越 时 可 以 向 SDN 交换 机 下 发 由 该 路 由 生成 的 流 表 项 。 


SDN 控 制 器 A SDN 控 制 器 B 


启动 BGP 模 块 启动 BGP 模 块 


创建 TCP 连 接 
兢 换 Open 报 文 


创建 BGP 连 接 


发 送 Update 报 文 ， 确 认可 达 性 信息 


路 由 选择 


转变 为 流 表 项 
下 发 给 SDN 交 换 机 


22-6 SDN 控制 器 的 东 ,西向 路 由 选择 过 程 


应 用 软件 开发 协议 栈 ‘Sg 


3. SDN 应 用 平面 


除了 SDN 数据 平面 与 控制 平面 ,还 有 作为 最 上 层 的 SDN 应 用 平面 , 它 也 是 SDN 框架 的 
重要 组 成 部 分 。SDN 应 用 平面 基于 SDN 控制 需 提 供 的 Restful API 等 接口 ,实现 了 资源 管 
理 .路 由 硕 业 务 .访问 控制 .负载 均衡 .应 用 加 速 .QoS 业务 .流量 工程 .安全 防御 .虚拟 资源 管 
理 和 网 络 运 维 与 配置 等 功能 ,并 回 运 营 商 用 户 展示 网 络 拓扑 结构 图 ,如 图 22 -7 所 示 。 


用 户 管理 
(创建 /删除 ) 


悉 心 功能 层 


UAWEN Cisco 
Plugin || Plugin 


附属 资源 与 
网 络 纯 定 


均衡 ‖ 文 检测 


一 se | 
ER 


HUAWEISDN| | Cisco SDN Juniper SDN 
控制 器 控制 此 挥 制 如 


图 22 -7 SDN 应 用 平面 架构 视图 


22.1.1.2 OpenFlow 协议 与 相关 表 结 构 

OpenFlow 协议 ( OpenkFlow 信道 ) 、 流 表 和 组 表 
是 OpenFlow 交换 机 最 重要 的 三 大 组 件 , 构 成 了 交 
换 机 的 核心 ,如 图 22 -8 所 示 。 下 面 我 们 将 对 这 
些 组 件 分 别 进行 介绍 。 

1. OpenFlow 协议 

OpenFlow(OF ) 协议 始 于 2009 年 ,由 斯 坦 福 
大 学 自 先 提 出 ,针对 的 就 是 网 络 转 控 分 离 的 染 构 
解 糙 。OpenFlow 经 历 了 硅 干 个 版 本 ,这 些 版 本 部 
是 由 ONF( 开放 网 络 基 金 会 ) 组 织 来 制定 的 ,每 个 
版 本 都 是 对 上 一 个 版 本 的 修正 与 补充 。 作 为 SDN 
控制 咒 南 加 接口 的 主要 实现 方式 ,可 以 说 
OpenFlow 的 历史 (如 图 22 -9 所 示 ) 也 代表 了 
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IT 设备 


流水 线 
22-8 由 流 表 .组 表 .OpenFlow 协议 
组 成 的 OpenFlow 交换 机 
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Dec,2009 Feb,2011 Dec,2011 April,2012 Oct,2013 


OF 1.0 OF 1.1 OF 1.2 OF 1.3 OF 1.4 
功能 : 
。 单 表 。 多 表 elFvo 。 重 构 能 力 协 商 s。 流 表 同 步 机 制 
e。 IPv4 ® MPLS e 多 控制 如 eIPv6 扩 展 头 e Bundling 消 息 
e 分 组 eVIeter 
se。 辅助 连接 


图 22-9 OpenFlow 协议 演进 路 线 图 


OpenFlow 是 SDN 控制 需 与 SDN 交换 机 之 间 的 接口 ,这 个 接口 也 被 称 为 OpenFlow 信道 。 
OpenFlow 信道 可 以 采用 TCP 协议 以 明文 方式 传输 ,也 可 以 采用 TLS 协议 以 密 文 的 方式 传 
输 。 但 为 了 传输 的 安全 可 靠 ,OpenFlow 信道 一 般 采 用 后 者 。 

OpenFlow 端口 用 于 SDN 交换 机 之 间 建 立 逻 辑 连 接 , 网 络 报 文 分 组 进入 和 离开 OpenFlow 
流水 线 都 要 经 过 OpenFlow 病 口 。 端 口 包 括 三 种 类 型 , 即 物 理 端 口 . 抽 辑 端口 和 保留 端口 。 

> 物理 端口 :交换 机 与 以 太 网 对 应 的 端口 。 

> 逻辑 端口 :不 二 接 与 物理 病 口 对 应 , 而 是 一 种 高 层 的 抽象 端口 ,是 需要 高 层 应 用 和 协 

以 来 定义 的 。 一 个 逻辑 疹 口 可 以 对 应 多 个 物理 疹 口 。 逻 辑 病 口 一 般 与 业务 类 型 相关 
的 网 络 报 文 分 组 相对 应 ,例如 链 路 聚合 . 障 着 . 环 回 地 址 等 ,可 能 多 个 物理 端口 都 是 服 
务 于 降 道 业务 的 ,那加 将 这 些 物 理 病 口 都 划分 为 一 个 逻辑 病 口 。 

> 保留 端口 :这 是 由 OpenFlow 协议 规定 的 通用 性 的 转发 动作 ,包括 ALL .CONTROLLER 、 

TABLE JIN_PORT .ANY LOCAL NORMAL FLOOD 等 动作 。 
OpenFlow 协议 是 SDN 控制 融 与 SDN 交换 机 之 间 的 控制 协议 ,允许 对 交换 机 流 表 中 的 流 
表 项 进行 增删 . 改 的 操作 , 表 22 -1 列 出 了 有 具体 的 控制 协议 报 文 ,可 分 为 如 下 三 类 : 
> 控制 器 到 交换 机 的 报 文 :这 类 报 文 均 由 控制 右 产 生 , 在 部 分 情况 下 不 要 求 交 换 机 的 啊 
应 ,其 作用 是 管理 交换 机 的 逻辑 状态 ,例如 流 表 项 和 组 表 项 的 配置 等 。 

> 异步 报 文 : 这 类 报 文 由 交换 机 产生 ,用 于 癌 控 制 右 报 送 日 号 状态 和 未 知 网 络 报 文 
分 组 。 

> 对 称 报 文 : 除 上 述 两 类 报 文 外 ,对 称 报 文 是 能 起 到 辅助 作用 的 报 文 ,例如 控制 希 与 交 
换 机 之 间 的 握手 报 文 市 宽度 量 报 文 等 。 
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UL 应 用 软件 开发 协议 栈 /7 


表 22 -1 OpenFlow 报 文 


报 文 名 称 报 文 描述 


控制 器 向 交换 机 请 求 功能 信息 ,交换 机 需 将 自身 的 功能 信 


Features 


县 返回 给 控制 融 


设置 与 查询 配置 参数 ,交换 器 需要 发 送 响应 报 文 


ME AS 对 流 表 项 和 组 表 项 进行 增删 . 改 , 同 时 也 包括 设置 交换 机 
odify-State Sa 
的 端口 属性 
| 收集 交换 机 的 信息 ,包括 当前 配置 信息 ,统计 信息 ,功能 信 
控制 器 到 Read-State 自 等 
交换 机 的 


报 文 Packet-out 将 报 文 分 组 引导 至 交换 机 特定 端口 上 


0 屏蔽 请 求 /响应 报 文 ,用 于 控制 器 保证 消息 的 依赖 性 和 接收 
| 消息 的 完整 性 
Be ，， 设置 和 查询 OpenFlow 信道 的 角色 ,多 用 于 交换 机 被 连接 到 
多 个 控制 器 的 场景 


对 异步 报 文 设置 过 滤 表 或 查询 过 滤 需 信息 ,多 用 于 交换 机 


Packet-in 将 网 络 报 文 分 组 发 送 给 控制 圳 
Flow-Removed 将 流 表 中 流 表 项 的 删除 信息 通报 给 控制 需 
Port-Status 回 控制 器 通报 交换 机 端口 变化 信息 


当 交 换 机 从 主 控制 器 变 为 从 控制 器 时 ,将 这 种 角色 的 转变 
通报 给 控制 器 


OpenFlow 信道 状态 改变 时 通知 控制 器 , 当 控制 器 失去 通信 
能 力 时 会 协助 进行 故障 恢复 


Eo 将 流 表 的 变化 通报 控制 器 ,以 便 控 制 器 实时 监控 其 他 控制 
机 器 对 流 表 的 修改 


控制 器 与 交换 机 之 间 的 担 手 协议 报 文 


Fehn 控制 器 与 交换 机 都 可 以 发 出 Echo 请 求 报 文 , 对 方 需要 回复 
对 称 报 文 Echo 啊 应 报 文 


控制 器 或 交换 机 将 自身 的 问题 和 故障 通报 给 对 方 
用 于 在 OpenFlow 未 来 的 版 本 中 添加 新 的 功能 


从 表 22 -1 中 可 知 ,交换 机 可 以 为 控制 融 提 供 事 件 类 报 文 . 流 统计 信息 类 报 文 和 采用 
Packet-in 报 文 封装 后 的 陌生 报 文 分 组 ,控制 器 可 以 通过 这 些 报 文 管理 SDN。 

SDN 控制 需 与 SDN 交换 机 建立 连接 的 过 程 是 这 样 的 : 

(1) 交换 机 加 控制 硕 建 立 TCP 连接 。 

(2) 连接 建立 后 ,交换 机 与 控制 器 相互 发 送 Hello 报 文 ,用 于 在 两 者 之 间 协 商 版 本 。 

(3) 控制 锅 向 交换 机 发 送 Feature Request 报 文 ,请求 获取 交换 机 性 能 功能 等 参数 。 


Asynchronous-Configuration 


Role-Status 


Controller-Status 
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(4) 交换 机 癌 控 制 占 返回 Feature Reply 报 文 , 报 文 中 附 市 着 交换 机 的 话 细 信息 。 
(5) 交换 机 与 控制 硕 交 换 完 上 述 信 息 后 ,彼此 定时 发 送 Echo Request 和 Echo Reply 这 
两 个 心跳 保 活 报 文 。 
交换 机 与 控制 器 的 连接 断 开 后 ,交换 机 会 进入 Fail Open 模式 ,该 模式 有 两 种 类 型 . 
> Fail Secure Mode :在 该 模式 下 ,OpenFlow 交换 机 的 流 表 项 继续 有 效 ,直到 超时 后 才 会 
锐 删 除 , 即 支持 流 表 项 的 正常 老化 。 
> Fail Standalone Mode: 所 有 报 文 分 组 均 通 过 保留 交口 正 冰 处 理 ,OpenFlow 交换 机 退 
化 为 普通 以 太 网 交换 机 。 不 过 这 种 模式 只 适用 于 OpenFlow-Hybrid 类 型 的 交换 机 , 医 
为 除 OpenFlow-Hybrid 类 型 之 外 的 交换 机 不 支持 以 太 网 功能 。 
2. 流 表 (Flow Table) 
OpenFlow 交换 机 内 部 有 许多 被 称 为 流 表 的 数据 结构 ,用 于 对 经 过 交换 机 的 网 络 报 文 分 
组 进行 处 理 。 每 个 分 组 在 交换 机 内 都 会 经 过 一 个 或 者 多 个 流 表 ,每 个 流 表 包 含 多 行 , 每 一 行 
被 称 为 一 个 流 表 项 (Flow Entry) , 流 表 项 中 规定 了 每 一 条 网 络 报 文 分 组 的 匹配 特征 、 流 问 等 
信息 。 流 表 的 字段 结构 是 与 OpenFlow 的 版 本 号 相关 联 的 , 越 往 后 的 版 本 中 流 表 结 构 越 复 
洒 , 如 图 22 一 10 和 22 一 11 所 示 。 


Match Fields Actions/Instructions 


i ‘forward/enqueue/drop/modity—field 
全集 : modify action—set or 


22-10 OpenFlow 1.0 流 表 项 与 其 匹配 字段 的 结构 


图 22 一 11 OpenFlow 1.3 流 表 项 的 结构 


从 图 中 可 以 看 出 ,OpenFlow 1.3 的 流 表 项 比 OpneFlow 1.0 的 流 表 项 在 结构 上 增加 了 若 
> Priority( 优先 级 ) ， 用 于 标志 流 表 匹 配 的 优先 顺序 ,优先 级 越 高 匹配 越 早 。 默 认 优 先 
级 为 0, 针 对 的 是 报 文 分 组 匹配 多 条 流 表 项 的 情况 。 同 一 个 流 表 中 按 流 表 项 的 优先 级 


进行 排序 匹配 。 
> Timeout( 超 时 时 间 ) :用 于 表示 该 流 表 项 老化 的 时 间 , 超 时 了 驶 删除 , 以 市 省 内 三 
资源 品 


> Cookie( 附属 信息 ) :表示 由 控制 部 选择 的 不 透明 数据 值 。 控 制 融 用 来 过 滤 流 统计 数 
据 ,包括 流 改 变 和 流 删 除 的 数据 ,但 处 理 数 据 包 时 不 能 使 用 。 
流 表 项 中 的 匹配 字段 ( Match Fields) 是 一 组 网 络 报 文 协议 头 域 的 组 合 , 用 于 标识 该 表 项 


二 应 用 软件 开发 协议 栈 (Ya 


对 应 的 流 ; 计 数 副 (Counter) 对 匹配 的 报 文 分 组 进行 记录 ,包括 每 个 端口 的 接收 分 组 数 、 每 个 
端口 或 队列 的 传输 分 组 数 .持续 时 间 等 统计 信息 ; 当 匹 配 上 了 茶 条 表 项 后 承 可 以 执行 表 项 后 
的 动作 /指令 (Action/Instruction) ,这 些 指 令 如 表 22 -2 所 示 。 
表 22-2 OpenFlow 1.3 流 表 项 指令 集 
指令 类 型 指令 说 明 
Write-Actions 更 改动 作 集 ( Action Set) 中 的 所 有 动作 
Goto-Table 进入 下 一 级 流 表 
对 匹配 到 流 表 项 的 网 络 报 文 分 组 进行 限 速 
Apply-Actions 立即 执行 动作 
Clear-Actions 清除 动作 集中 的 所 有 动作 


更 改 流 表 间 数据 ,在 支持 多 级 流 表 时 使 用 


要 注意 的 是 指令 集中 的 指令 必须 遵照 一 定 的 顺序 执行 , 即 ， 

Meter( meter_ id ) 指令 必须 在 Apply-Actions 指令 之 前 执行 ; 

Clear-Actions 指令 必须 在 Write-Actions 指令 之 前 执行 ; 

> GoTo-Table 指令 必须 在 最 后 执行 。 

此 指令 执行 的 优先 顺序 为 . Meter 一 > Apply-Actions— Clear Actions 一 Write-Actions— 
Write-Metadata 一 Goto-Table 。 每 个 流 表 项 的 指令 集中 每 种 指令 类 型 最 多 只 能 有 一 个 。 

动作 集 ( 如 表 22 -3 所 示 ) 是 与 通过 流 表 流水 线 的 网 络 报 文 分 组 相关 联 的 , 当 分 组 通过 
各 个 流 表 时 , 流 表 会 指示 对 其 进行 各 种 处 理 进而 形成 动作 集 ,这 些 动作 在 分 组 即将 离开 流水 
线 时 会 被 统一 执行 。 流 表 项 中 的 处 理 动作 也 允许 对 报 文 分 组 进行 修改 , 当 匹 配 下 一 个 流 表 
时 会 按照 修改 后 的 新 报 文 分 组 进行 匹配 。 

表 22-3 OpenFlow 1.3 流 表 项 动作 集 
动作 说 明 


无 直接 动作 ,指令 集中 无 Output 动作 则 丢弃 该 报 文 


设置 报 文 的 队列 ID 
Push-Tag/Pop-Tag | 写 入 /弹出 标签 ,例如 VLAN 、MPLS 等 
修改 报 文 的 头 字段 
外 TH Di 等 
OpenFlow 交换 机 中 允许 存在 多 个 流 表 ( OpenFlow 1.3 版 本 后 支持 的 功能 ) ,这 些 流 表 串 
起 来 就 形成 了 流 表 流 水 线 (pipeline) 。 所 有 流 表 依 次 排列 ,从 序号 0 开始 ,网 络 报 文 分 组 依次 
通过 这 些 流 表 。 每 个 流 表 都 包含 右 干 流 表 项 , 流 表 项 中 的 指令 如 表 22 -2 所 示 。 显 然 ,前 者 是 
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将 报 文 分 组 转 到 下 一 个 流 表 中 处理 ,后 者 是 对 报 文 分 组 直接 人 处 理 ,包括 Output Drop、Set- 
Queue 等 。 流 表 的 流水 线 处 理 过 程 如 图 22 -12 所 示 。 


OpenFlow 艾 换 机 


Packet 
出 口 


图 22-12 流 表 的 流水 线 处 理 过 程 


流 表 中 通常 默认 会 有 table miss( 表 未 命中 ) 这 个 流 表 项 。table miss 表 项 的 优先 级 最 低 ， 
为 0, 且 不 匹配 所 有 流 表 项 。 该 流 表 项 的 作用 是 :在 菏 个 流 表 中 找 不 到 和 该 报 文 分 组 匹配 的 
流 表 项 时 就 交 由 table miss 表 项 来 处 理 ,通常 的 处 理 动作 是 转发 给 SDN 控制 硕 、 丢 径 抒 或 转 
交 给 后 面 的 流 表 。 

当 网 络 报 文 分 组 进入 交换 机 时 ,首先 从 0 号 流 表 开始 匹配 。 流 表 的 处 理 顺 序 必 须 按照 
序号 从 小 到 大 进行 处 理 ,不 能 “逆流 而 动 "。 当 分 组 匹配 菏 一 流 表 项 时 , 自 先 会 更 新 该 流 表 项 
的 统计 计数 ,再 根据 流 表 项 中 的 指令 进行 相应 操作 ,例如 转 到 下 一 个 流 表 或 立即 执行 动作 集 
等 。 当 报 文 分 组 流动 到 最 后 一 个 流 表 时 ,其 对 应 的 动作 集会 被 全 部 执行 。 

流 表 是 由 OpenFlow 控制 紫 下 发 的 ,有 两 种 下 发 模式 . 

> 主动 模式 :控制 副将 日 己 的 流 表 信息 主动 下 发 给 交换 机 。 这 种 方式 比较 占用 交换 机 

的 内 存 空间 ,但 处 理 效率 也 比较 高 。 不 过 为 了 市 省 空间 ,一 般 情 况 下 控制 舌 只 是 发 送 
初始 的 基本 流 表 而 非 全 部 流 表 。 

> 被 动 模式 :交换 机 收 到 阳 生 网 络 报 文 分 组 (没有 匹配 的 流 表 项 ) 时 ,将 该 报 文 分 组 上 殉 

给 控制 器 ,控制 器 向 该 交换 机 下 发 这 条 分 组 的 流 表 项 。 被 动 模式 下 交换 机 无 需 维护 
大 量 流 表 ,只 在 遇 到 阳 生 报 文 时 按 需 索 取 。 

3. 组 表 ( Group Table) 

组 表 本 质 上 也 是 一 种 流 表 ,由 奋 干 个 组 表 项 (Croup Entby) 组 成 。 组 表 通 过 指 加 不 同 的 
组 来 为 报 文 提供 转发 目标 。 这 些 分 组 的 类 型 包括 :All .select Indirect 和 Fast Failover, 其 中 
Al 和 Indireet 是 交换 机 必须 文 持 的 两 种 类 型 。 图 22 - 13 是 组 表 项 的 结构 。 


GPS | Group Type 


司 22-13 OpenFlow 组 表 项 的 结构 


> Group Identifier( 组 ID ) :表示 分 组 的 唯一 标识 ,是 个 32 位 整数 。 
> Counter( 计数 器 ) :表示 使 用 该 分 组 的 次 数 。 
> Action Bucket( 动作 桶 ) :表示 包含 多 个 动作 的 列表 。 
> Group Type( 分 组 类 型 ) : 即 列 出 的 4 种 类 型 ,每 种 类 型 的 解释 如 下 : 
e All: 依 次 执行 动作 桶 中 所 有 的 动作 ,多 用 于 组 播 和 广播 ,分 组 中 的 每 个 动作 桶 都 会 


455 


mn 应 用 软件 开发 协议 栈 Da 


复制 一 份 网 络 报 文 分 组 ,每 个 桶 都 关联 一 个 不 同 的 输出 端口 。 
。 select : 会 根据 交换 机 事先 被 设置 的 算法 (例如 散 列 算法 等 ) 来 执行 某 个 桶 中 的 动 
作 , 例 如 可 以 按照 控制 硕 设 置 的 权重 算法 来 进行 发 送 的 负载 均衡 。 
。 Indirect: 执 行 一 个 已 在 分 组 中 定义 的 动作 桶 。 这 种 分 组 中 只 有 一 个 动作 桶 ,多 用 
于 多 条 流 分 组 的 聚合 输出 ,例如 只 改变 桶 中 的 输出 目的 地 址 就 可 以 改变 与 该 桶 关 
联 的 多 条 流 的 输出 方向。 
e Fast Failover :这 种 类 型 的 分 组 可 以 让 交换 机 在 无 需 问 控制 硕 发 起 查询 的 情况 下 
就 修改 转发 路 径 ,多 用 于 端口 故障 快速 恢复 的 场景 。 
引入 组 表 的 目的 是 为 了 文 持 L2/13 多 路 径 转 发 ,同时 也 文 持 链 路 聚合 .ECMP ,快速 重 路 
由 、BGP 下 一 跳 汇 聚 等 扩展 的 额外 能 力 。 
4. 计量 表 ( Meter Table) 
计量 表 提 供 了 报 文 分 组 的 限 速 功能 , 流 表 项 通过 引用 计量 表 的 表 项 实现 了 该 功能 ,每 个 
表 项 的 结构 如 图 22 - 14 所 示 。 


Meter Identifier Meter Band 


22 -14 ”OpenFlow 计量 表 项 的 结构 


一 个 计量 表 表 项 可 以 包含 一 个 或 者 多 个 Meter Bands 每 个 Meter Band 定义 了 速率 以 及 
动作 。 硅 报 文 的 传输 速率 超过 了 某 些 Meter Band , 则 根据 这 些 Meter Band 中 速率 最 大 的 那 
个 定义 的 动作 进行 处 理 。 

22.1.1.3 SDN 链 路 发 现 机 制 

在 传统 网 络 中 , 链 路 发 现 一 般 都 是 由 转发 单元 (网 元 ) 目 主 进行 的 ,但 在 SDN 中 , 链 路 发 
现 则 是 由 具有 全 局 视野 的 SDN 控制 硕 统 一 完成 的 。 

链 路 层 发 现 协议 (Link Layer Discovery Protocol , LLDP) 是 一 种 标准 的 链 路 发 现 方式 ,可 
以 将 本 地 病 交 换 设备 的 主要 信息 (地 址 信息 .以 太 网 类 型 .设备 标识 、 接 口 标识 等 ) 以 
LLDPDU( 链 路 层 发 现 协议 数据 单元 ) 的 形式 问 周 围 的 下 连 单元 发 布 和 扩散 。 对 于 OpenFlow 
交换 机 来 说 ,这 些 单 元 月 然 也 包括 与 之 相连 的 OpenFlow 控制 禹 ,也 就 是 说 OpenFlow 控制 需 
采用 LLDP 进行 链 路 发 现 。LLDP 链 路 发 现 的 一 般 过 程 如 下 : 

(1) 控制 锅 问 所 有 与 之 相连 的 交换 机 发 送 一 个 Packet-out 报 文 , 该 报 文中 封 妆 了 LLDP 
数据 包 ,以 命令 交换 机 将 LLDP 数据 包 发 送 给 所 有 端口 。 

(2) 交换 机 收 到 Packet-out 报 文 后 将 该 报 文 中 的 LLDP 包 发 送 给 与 该 交换 机 相连 的 所 
有 交换 机 (包括 控制 需 ) ,也 就 是 邻 届 交换机。 

(3) 如 果 邻 大 交 换 机 是 OpenFlow 交换 机 ,就 会 针对 该 报 文 查询 日 己 的 流 表 并 进行 处 
理 。 由 于 邻居 交换 机 没有 专门 的 流 表 项 处 理 该 LLDP 数据 包 , 因 此 只 能 将 其 封装 成 Packet-in 
报 文 并 返回 给 控制 硕 。 

(4) 控制 希 收 到 该 Packet-in 报 文 后 进行 分 析 ,并 在 其 保存 的 链 路 表 中 添加 上 述 两 侣 区 
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换 机 的 连接 记录 ,如 此 便 生 成 了 一 条 链 路 。 其 他 交换 机 也 照 此 办 理 , 最 终生 成 全 局 的 连接 

(5) 如 果 步 又 (3) 中 的 邻居 交换 机 不 是 OpenFlow 交换 机 ,也 就 是 说 OpenFlow 交换 机 连 
接 看 非 OpenFlow 域 , 此 时 控制 硕 会 要 求 所 辖 交 换 机 发 送 广播 包 , 除 控制 硕 外 的 所 有 痊 口 所 
连 交 换 机 都 能 收 到 该 广播 包 。 

(6) 广播 包 在 非 OpenFlow 域 中 穿 过 , 最终 到 达 与 该 非 OpenFlow 网 络 域 相 邻 的 另 一 个 
OpenFlow 域 的 交换 机 ( OpenFlow 交换 机 ) 中 。 该 交换 机 必然 没有 对 应 的 流 表 项 人 处理 该 广播 
包 , 上 日 然 也 会 将 其 封装 为 Packet-in 报 文 并 上 交 给 上 日 己 所 属 的 控制 副 , 从 而 形成 男 一 条 新 的 链 
路 。 

22.1.1.4 SDN 控制 器 项 目 

1. 现 有 SDN 控制 器 的 开源 和 商业 项 目 

SDN 控制 硕 既 有 商业 项 目 , 也 有 开源 项 目 ,比较 知名 的 控制 锅 项 目 包 括 : 

> OpenDaylight(ODL ) :由 Cisco 和 IBM 创立 的 开源 SDN 控制 器 项 目 ,主要 成 员 都 是 网 

e 这 是 一 种 用 于 网 络 可 编程 的 Java 语言 的 平台 ,实现 了 单一 集中 式 控 制 厦 ,并 具有 
很 哩 的 扩展 性 和 适 配 性 ,同时 也 实现 了 与 NFV 开发 平台 OPNFV .OpenStack 和 开 
放 网 络 自 动 化 平台 ONAP 的 同步 。 

。 OpenDaylight 控制 硕 是 以 化 学 元 素来 命名 的 ,最 初 的 产品 是 Hydrogen( 氧 ) ,最 新 的 
版 本 是 第 8 个 版 本 :Oxygen( 氧 ) 。 

开放 网 络 操作 系统 (ONOS ) :全 称 是 Open Network Operating System ,是 由 AT&T 等 运 

营 商 和 其 他 服务 提供 商 文 持 的 首 亚 开源 的 SDN 网 络 操作 系统 。 

。 ONOS 于 2014 年 发 布 ,并 得 到 了 开放 网 络 基金 会 的 文 持 。 

。 该 项 目 主 要 用 于 分 布 式 控制 带 , 可 徘 性 强 \、 性 能 好 、 灵 活 度 高 ,主要 面 回 运营 商 和 
企业 主干 网 。 

> NOX/POX :作为 第 一 款 真正 意义 上 的 SDN OpenFlow 控制 器 ,NOX 支持 OpenFlow 1.0 

和 C++ 的 API, 并 且 采 用 了 异步 的 基于 时 间 的 编程 模型 。 

。 POX 是 NOX 的 更 新 版 本 , 文 持 Windows .Linux 等 系统 。 

e POX 是 一 种 由 SDN 从 业者 支持 的 开源 OpenFlow 控制 融 ,使 用 Python 语言 开发 , 具 
有 展 好 的 API 文档 和 友好 的 Web 用 户 界 面 。 

> Floodlight: 由 Big Switch Networks 公司 人 钱 发 的 开源 项 目 , 文 持 Restful API。 

> Ryu: 由 NTT 实验 室 研发 的 开源 SDN 框架 ,基于 Python 语言 开发 。 

> Onix: 由 VMWare .Google 和 NTT 共同 研发 的 分 布 式 SDN 控制 器 商业 项 目 。 

其 他 商业 控制 器 :包括 Cisco 的 CiscoOne .华为 的 SNC(Smart Network Controller, 知 能 

网 络 控制 器 ) 、Brocade 的 Vyatta SDN 控制 融 、 Juniper 的 OpenContrail 、 化 二 的 VCF 
(Virtual Converged Framework ,虚拟 融合 架构 ) 探 制 疾 等 。 
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虽然 大 多 数 开源 控制 兹 是 基于 OpenFlow 协议 开发 的 ,但 大 多 数 商 业 控 制 硕 却 是 基于 开 
源 代 码 和 各 三 商 的 私有 协议 开发 的 ,因此 实现 交换 机 与 控制 硕 的 真正 解 帮 还 很 难 。 

2. OpenDaylight 

OpenDaylight 是 一 套 模 块 化 \ 可 插 拔 ,多 于 扩展 的 开源 SDN 控制 各 平台 架构 ,该 架构 采 
用 Java 语言 开发 ,并 基于 Java 的 动态 模型 系统 0SGi( Open Service Gateway initiative ,开放 服 
务 网 关 倡 议 ) 框 染 实现 了 一 个 组 件 化 的 基于 模型 编程 的 控制 带 , 如 图 22 一 15 所 示 。 

OpenDaylight 控制 血 主 要 包括 开放 的 北向 API 控制 右 平 面 \ 丙 问 接 口 和 协议 插件 。 北 
四 API 分 为 OSGi 和 REST 两 类 ,其 中 0SGi 是 有 状态 连接 ,有 注册 机 制 , 而 REST 是 无 状态 连 
接 。 同 一 系统 进程 内 的 应 用 使 用 0SGi 类 API , 而 不 同系 统 进程 之 间 的 应 用 则 使 用 REST 类 
API。 上 层 应 用 程序 可 以 利用 这 些 北向 API 获得 网 络 拓扑 信息 和 运行 算法 等 并 进行 分 析 , 文 
持 设 计 部 闭 新 的 网 络 策略 。 
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22 一 15 OpenDaylight 控制 希 平 台 架 构 ( 图 片 来 目 SDNLAB ) 


控制 带 平 台 包 括 一 系列 功能 模块 ,可 动态 组 合 以 提供 不 同 的 服务 ,这些 功 能 模块 包括 拓 

服务 抽象 层 ( Service Abstraction Layer,SAL ) 是 控制 更 模块 化 的 核心 ,用 于 日 动 适 配 底 层 
不 同 的 设备 ,使 开发 者 专注 于 业务 应 用 的 开发 。SAL 北向 连接 功能 模块 ,以 插件 的 形式 为 之 
提供 底层 设备 服务 ; 南 向 连接 多 种 协议 插件 ,屏蔽 不 同 协议 的 差异 性 ,为 北 回 功能 模块 提供 
一 致 性 服务 ,因此 SAL 起 到 中 间 调 度 的 作用 。 

南 回 接口 支持 多 种 不 同 协议 , 如 OpenFlow 1. 0 .OpenFlow 1.3 Netconf .BGP-LS( 拓 扑 发 
现 和 收集 ) .PCEP( 路 人 径 计算 单元 通信 协议 ) 等 ,用 于 将 控制 菏 略 下 发 到 设备 ,并 从 底层 的 转 
发 设备 获取 数据 。 这 些 底层 设备 文 持 混合 模式 交换 机 和 经 典 OpenFlow 交换 机 。 

目前 的 OpenDaylight 控制 需 平 台 引 入 了 MD-SAL( Model Driven-SAL ,模型 驱动 SAL) ,用 
于 替换 早期 的 AD-SAL(API Driven-SAL ,API 驱动 SAL) 。 两 者 在 设计 上 有 以 下 不 同 : 

> MD-SAL 引入 了 Data Store ,用 于 存储 上 层 应 用 和 下 层 设 备 所 定义 的 Yang 模型 数据 。 
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Yang 是 随 Netconf 协议 产生 的 数据 建 模 语言 ,类似 于 XML Schema 和 SNMP SMI, 具 有 
恨 好 的 可 该 性 和 可 扩展 性 。 

> MD-SAL 中 北向 和 南 问 插件 均 可 以 对 上 述 Yang 模型 进行 存 取 。 

> MD-SAL 中 北向 和 南 向 插件 的 适 配 是 由 单独 的 适 配 插 件 完 成 的 , 当 北 向 和 南 向 的 API 
是 一 一 对 应 的 关系 时 ,可 以 采用 访问 共同 的 Data Store 的 方式 实现 数据 交互 而 无 需 像 
在 AD-SAL 中 那样 注册 和 绑 定 API。 

> 在 MD-SAL 中 提出 了 数据 提供 者 和 消费 者 的 概念 ,二 者 均 需 要 回 MD-SAL 注册 。 

> 在 MD-SAL 中 ,数据 消费 者 向 MD-SAL 订阅 数据 ,在 收 到 数据 提供 者 的 Notification 消 
息 后 可 以 从 Data Store 中 获取 数据 。 

> AD-SAL 非常 类 似 Windows 中 的 NDIS 框架 。 在 NDIS 中 ,上 层 与 下 层 的 驱动 均 问 
NDIS 适 配 层 注 册 API, 以 使 上 层 协 议 栈 驱动 可 以 调用 下 层 NIC 驱动 的 接口 ,同样 下 层 
NIC 驱动 也 可 以 回调 上 层 的 协议 栈 驱 动 的 接口 。 在 AD-SAL 中 亦 是 如 此 , 南 向 和 北向 
插件 可 以 分 别 调用 对 方 注册 的 API, 由 Request Routing 完成 二 者 的 消息 传递 。 

> 在 MD-SAL 中 具有 商 疝 和 北向 两 个 Yang 模型 ,分 别 面 和 同上 层 服 务 和 下 层 设备 。 羡 问 
和 北向 插件 都 通过 模型 自动 生成 的 API 来 存 取 Data Store 内 的 数据 。 

> 在 MD-SAL 中 提供 了 三 种 访问 Data Store 的 方式 : Binding API Binding Independent 
API 和 HTTP RestConf API。 

AD-SAL 和 MD-SAL 的 架构 对 比如 图 22 -16 所 示 。 
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图 22-16 AD-SAL 与 MD-SAL 的 架构 对 比 ( 图 片 来 自 CSDN) 


MD-SAL 本 刁 不 提供 任何 模型 ,所 有 的 模型 都 是 由 对 应 的 插件 来 提供 的 ,MD-SAL 只 是 
提供 了 相应 的 注册 机 制 以 及 插件 间 的 连接 机 制 。 

SAL 起 到 了 承上启下 的 中 间 调 度 作 用 ,也 就 是 完成 了 请 求 的 路 由 过 程 。 其 北向 连接 功 
能 模块 ,以 插件 的 形式 为 之 提供 底层 设备 服务 ;责问 连接 多 种 协议 ,屏蔽 不 同 协议 的 差异 性 ， 
为 上 层 功 能 模块 提供 一 致 性 服务 ,使 得 上 层 模 块 与 下 层 模块 之 加 的 调用 相互 隔离 。SAL 可 
自动 适 配 底层 不 同 的 设备 ,使 开发 者 专注 于 业务 应 用 的 开发 。 
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因此 ,MD-SAL 层 本 质 上 就 是 一 个 消息 传递 组 件 ,负责 为 上 下 两 层 的 各 个 插件 提供 消息 
转换 服务 。 在 OpenDaylight 中 消费 者 通过 RPC 方式 调用 提供 者 的 服务 ,提供 者 可 以 加 消费 
者 发 送 Notification 消息 (消费 者 需要 事先 订阅 ) ,使 得 Data Store 的 话 写 和 数据 变化 可 以 被 通 
知 到 各 个 组 件 。 这 些 工作 都 是 由 作为 中 介 的 MD-SAL 完成 的 。 
综 上 所 述 ,OpenDaylight 控制 项 整体 上 及 用 了 如 下 的 设计 原则 
> 运行 时 模块 化 和 扩展 化 (Runtime Modularity and Extensibility ) :支持 在 控制 器 运行 
时 进行 服务 的 安 闻 .删除 和 更 新 。 

> 多 协议 的 南 向 支持 (Multiprotocol Southbound ) : 南 向 支持 多 种 协议 。 

> 服务 抽象 层 : 南 回 多 种 协议 对 上 提供 统一 的 北向 服务 接口 。Hydrogen 中 全 线 采 用 
AD-SAL, Helium 版 本 中 AD-SAL 和 MD-SAL 共存 ,Lithium 和 Beryllium 版 本 中 已 全 部 
使 用 MD-SAL 架构 ， 

> 开放 的 可 扩展 北向 API: 通 过 REST 或 者 函数 调用 方式 提供 可 扩展 的 应 用 API ,两 者 

提供 的 功能 是 一 致 的 。 

> 支持 多 租户 和 切片 (Support for Multi-tenancyvSlicing ) : 允许 网 络 在 逻辑 上 或 物理 上 

被 划分 成 不 同 的 切记 或 租户 。 探 制 硕 的 部 分 功能 和 模块 可 以 管理 指定 切片 ,控制 硕 
根据 所 管理 的 切片 来 呈现 不 同 的 控制 观测 面 。 

> 一 致 性 聚合 ( Consistent Clustering ) :提供 细 粒 度 复制 的 聚合 和 确保 网 络 一 致 性 的 模 

回 扩 展 (scale-out) 。 
22.1.1.3 SD-WAN 

WAN 就 是 广域网 。 一 个 区 域内 的 局 域 网 (LAN ) 一 般 都 会 通过 路 由 器 等 设备 接 和 人 WAN 
中 。 在 不 同 的 WAN 之 间 的 连接 包括 有 线 和 无 线 两 种 ,有 线 的 服务 如 MPLS TIl 承载 着 以 太 
网 或 者 商业 宽 市 的 链 路 等 ;无 线 的 服务 则 包括 蜂 需 数据 网 络 ( 如 4G LIE ) 以 及 公共 Wi-Fi 或 
者 卫星 通信 。 在 WAN 领域 多 采用 MPLS( 多 协议 标签 转换 ) 的 方式 来 实现 VPN。 

SD-WAN( Software-Defined WAN ,软件 定义 广域网 ) 将 特定 便 件 组 成 的 WAN 网 络 的 控制 
能 力 通过 软件 方式 “虚拟 化 ”, 利 用 集中 控制 紫 实 现 设备 的 抽象 与 统一 调度 ,是 对 SDN“ 转 控 
分 离 ” 思 想 的 继承 。 也 就 是 说 SD-WAN 与 SDDC( 软件 定义 数据 中 心 ) 一 样 ,是 SDN 的 一 种 
应 用 ,其 根本 目的 就 是 利用 多 条 现 网 链 路 ,根据 业务 应 用 的 优先 程度 综合 选择 线路 质量 ,日 
动 选 择 最 住 路 径 , 保 证 流量 成 本 、 人 负载 均衡 和 网 络 质 量 (取代 MPLS-VPN IPSEC-VPN 等 ) 。 
特别 是 基于 应 用 的 路 由 选择 和 优化 .DDoS 安全 防护 等 是 现 阶段 SD-WAN 最 为 广泛 的 应 用 实 
例 。 虽然 SD-WAN 和 SDN 的 思想 同 出 一 肪 ,但 由 于 应 用 环境 不 同 , 实 现 方式 也 是 锭 异 的 。 
与 MPLS 相 比 ,SD-WAN 不 依赖 于 专用 的 传输 设备 ,也 不 需要 事先 做 专门 的 配置 ,因此 具有 
更 好 的 灵活 性 和 开通 的 便捷 性 。 

根据 SD-WAN 控制 锅 对 网 络 域 的 控制 边界 ,可 以 将 SD-WAN 划分 为 4 种 架构 . 

> 又 加 架构 :实现 了 多 接 人 控制 方式 ,并 且 SD-WAN 控制 器 控制 了 边缘 设备 到 网 关 设 备 

的 上 行 流量 ,也 简化 了 WAN 的 操作 管理 。 
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> 云端 架构 :实现 了 多 个 接 人 点 (PoP) 的 集成 ,在 每 个 接 人 点 都 部 署 了 虚拟 边缘 路 由 需 
(vPE) ,路 由 器 一 侧 与 各 分 支 的 边缘 设备 建立 VPN 隧道 , 另 一 侧 与 ISP 提供 的 MPLS 
设备 直 连 。 汇 聚 上 来 的 流量 可 通过 多 个 隧道 转发 到 MPLS 主干 网 中 。 

> 整合 架构 :网 络 管理 部 件 可 以 管理 多 个 运 彰 商 的 边缘 路 由 融 (PE ) 而 不 仅仅 是 多 个 边 
绿 设 备 ,提高 了 混合 组 网 的 能 7 

> 原生 架构 :SD-WAN 控制 器 统一 管 理 边 缘 设 备 .网 关 设 备 .骨干 核心 网 PE 等 ,全 网 统 
一 编排 .统一 调度 ，。 

按照 功能 分 界 和 转 控 分 离 的 原则 ,可 以 将 SD-WAN 目 底 向 上 地 划分 为 三 个 主要 的 层次 : 

> SD-WAN 边缘 设备 层 :对 应 于 SDN 数据 转发 展 , 负 责 SD-WAN 隧道 的 连接 和 拆除 , 包 
括 隧道 绑 定 网络 优 化 .数据 包 传 输 控 制 .应 用 程序 识别 .数据 缓存 等 基础 层 的 功能 ， 
支持 常见 的 SDN 南 向 协议 。 

> SD-WAN 控制 器 层 : 对 应 于 SDN 控制 平面 ,通过 与 边缘 设备 层 建 立 安 全 连接 来 执行 
策略 的 下 发 ,包括 路 由 协议 的 下 发 和 边缘 设备 状态 的 获取 。 因 此 控制 器 层 的 功能 模 
块 包 括 应 用 传输 路 径 的 动态 调整 .实时 监测 和 告警 .流量 采集 与 分 析 等 

> SD-WAN 服务 编排 层 :对 应 于 NFV 中 的 VNFM 负责 整个 服务 生命 周期 的 管理 与 编 
排 ,因此 包括 策略 定义 模块 .审计 和 实施 模块 .安全 模块 .模板 管理 模块 等 ,并 生成 了 
一 个 个 诸如 流量 控制 链 传输 加 速 链 这 样 的 服务 链 (Service Chain ) 下 发 给 控制 希 层 ， 
控制 器 层 会 根据 这 些 服务 链 生 成 对 应 的 流 表 并 继续 向 转发 展 下 发 。 服 务 编排 层 同时 
也 提供 了 北向 接口 , 供 业 务 和 计 费 层 的 软件 调用 。 

22.1.1.6 JIBN 
IBN( Intent-Based Networking ,基于 意图 的 网 络 ) 的 核心 理念 是 可 以 对 用 户 侧 的 业务 策略 
进行 翻译 并 转换 为 必要 的 网 络 配 置 ,继而 自动 实施 、 运 维和 纠 错 。 因 此 ,IBN 可 被 看 作 帮 助 
网 络 管理 员 规 划 设 计 、 实 施 部 署 和 操作 运 维 以 提高 网 络 灵 活性 和 可 用 性 的 软件 系统 。 
Gartner 提出 的 IBN 的 定义 有 以 下 4 部 分 内 涵 : 

> 转译 和 验证 :系统 从 最 终 用 户 处 获取 更 高 级 别 的 业务 策略 ,并 将 其 转换 为 必要 的 网 络 
配置 ,生成 并 验证 最 终 的 设计 和 配置 以 保证 正确 性 。 

> 自动 化 实施 :系统 可 以 在 现 有 网 络 基 础 设施 上 配置 适当 的 网 络 变更 ,配置 可 以 通过 网 
络 自 动 化 或 网 络 编排 完成 。 


> 网 络 状态 感知 :系统 为 其 管理 控制 下 的 业务 系统 提供 实时 网 络 状 态 ,这些 操 作 都 是 协 
议和 传输 不 可 知 的 。 


> 保障 和 自动 化 优化 补救 :系统 持续 验证 原始 业务 意图 是 否 正确 实现 ,并 且 可 以 在 意图 

无 法 实现 时 采取 纠正 措施 。 
因此 ,IBN 本 质 上 就 是 能 让 ka 种 工具 ,并 且 兼 具 了 网 
络 运 维和 自动 纠 错 的 能 力 。 网 络 管理 是 个 复杂 的 活 儿 ,目前 的 网 络 管理 软件 是 通过 命令 行 
界面 进行 配置 的 ,这 就 要 求 精 确 orb 绽 辟 地 维护 ,并且 需要 随时 应 对 由 于 操作 不 恒 
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而 造成 的 断 网 情况 。IBN 可 以 将 网 络 管理 员 从 这 些 烦 琐 的 工作 中 解脱 出 来 ,并 且 会 持续 验 
证 原 娘 的 业务 害 求 是 否 被 满足 , 当 不 被 满足 时 可 以 随时 纠偏 ,这 样 就 会 形成 一 个 持续 闭环 的 
系统 ,提升 了 可 用 性 和 敏捷 性 。 
基于 上 述 定 义 ,IBN 的 运行 过 程 大 致 是 这 样 的 :收集 意图 一 转译 和 验证 一 月 动 下 发 与 执 
行 一 日 我 优化 补救 一 实时 反馈 ,这 也 是 IBN 运行 的 状态 机 。 
> 收集 意图 ( Intent Collection ) :意图 就 是 用 户 希 望 达成 的 网 络 状 态 , 这 个 状态 在 转译 生 
效 之 前 可 以 灵活 修改 。 
> 转译 和 验证 ( Translation and Validation ) :将 网 络 意 图 转化 为 网 络 策 略 ,网络 荣 略 就 
是 网 络 能 够 理解 的 语言 了。 生成 策略 后 要 根据 网 络 状态 实时 验证 有 效 性 ,如 果 验 证 
不 通过 则 再 从 收集 意图 开始 执行 。 
> 自动 下 发 与 执行 (Automated Implementation ) :通过 验证 的 策略 会 由 IBN 系统 下 发 
到 基础 网 络 上 月 动 执行 。 
> 自我 优化 补救 (Self-Remediation ) :由 于 网 络 的 状态 是 动态 变化 的 ,因此 执行 时 与 验 
证 时 的 状态 可 能 不 一 致 ,IBN 系统 会 日 动 根据 先前 的 意图 对 策略 进行 优化 和 纠偏 。 
> 实时 反馈 ( Post-Assessment) :将 运行 结果 反馈 给 IBN 的 发 起 者 (网 络 管理 员 等 ) ,由 
发 起 者 研判 是 否 已 经 符合 最 初 的 意图 。 
总 之 ,IBN 是 一 种 基于 人 类 意图 去 部 署 和 实现 的 网 络 , 并 文 持 上 月 我 纠偏 机 制 。 这 种 网 络 
最 直接 .最 理想 的 实现 策略 就 是 软件 定义 ,因此 IBN 也 是 SDN 的 延伸 和 发 展 ,也 许 未 来 IBN 
会 成 为 网 络 发 展 的 大 趋势 。 


22.1.2 NFV 


NFV( Network Function Virtualization ,网 络 功能 虚拟 化 ) 是 由 ETSI 的 NFV 工作 组 提出 的 
一 种 技术 ,也 是 一 种 部 团 和 管理 网 络 服务 的 全 新 方式 。 其 核心 思想 是 通过 X86/X64 等 通用 
计算 平台 和 Linux 等 通用 操作 系统 ,结合 虚拟 化 和 云 化 技术 来 承载 网 络 功能 软件 ,一 方面 使 
网 络 功能 软 便 件 解 称 分 离 , 另 一 方面 也 可 以 提高 便 件 设备 中 网 络 软件 的 运行 效率 ,同时 还 可 
以 实现 网 络 业务 的 快速 迭代 和 目 动 部 普 ,实现 弹性 伸缩 故障 阳 离 和 日 动 修复 等 功能 。 可 以 
说 NFV 是 布 望 依 助 于 云 计算 、 容 硕 化 和 微服 务 的 思想 ,实现 网 络 业务 的 微服 务 化 ,实现 目 动 
运 维 ,并 最 终 实现 一 套 开 放 的 网 络 平 台 。 正 因为 来 用 了 虚拟 化 技术 ,NFV 的 名 称 也 由 此 而 
来 。 不 过 ,由 于 运行 于 虚拟 机 上 ,性 能 必然 会 有 损耗 。 特 别 是 目前 NFV 的 相关 生态 和 软件 
都 不 是 十 分 成 熟 ,NFV 的 商用 化 道路 还 很 长 。 
自 完 来 看 一 些 相 关 名 词 的 解释 。 
> VNF( Virtualized Network Function ) :虚拟 网 络 功能 ,主要 是 指 路 由 各 防火 填 深度 
包 检 测 ( DPI) NAT 等 网 络 设备 功能 的 软件 化 。 包 括 VNF( 虚拟 网 络 功 能 ) 和 EMS( 单 
元 管理 系统 ,用 于 对 VNF 的 功能 进行 配置 和 管理 ) 两 部 分 ,一 般 情况 下 EMS 和 VNF 
是 一 一 对 应 的 。 
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> NFVI( Network Function Virtualized Infrastructure ) : 网 络 功 能 虚拟 化 基础 设施 , 提 
供 VNF 的 运行 环境 ,包括 所 需 的 便 件 及 软件 。 其 中 便 件 包括 计算 、 网 络 和 存储 资源 ; 
软件 包括 Hypervisor 网络 控 制 句 存储 管理 需 等 工具 。NFVI 将 物理 资源 虚拟 化 为 虚 
拟 资源 供 VNF 使 用 。 

> PNF( Physical Network Function ) :物理 网 络 功能 ,是 指 在 专用 硬件 上 的 控制 平面 与 
数据 平面 集成 在 一 起 的 传统 网 络 设备 。 

> CNF( Cloud-Native Network Function ) : 云 原 生 网 络 功能 ,是 指 容 上 需 化 的 VNF 和 可 以 
微服 务 化 的 容 需 网 络 和 服务 网 格 。 

> VIM( Virtualized Infrastructure Manager ) :虚拟 化 基础 设施 管理 器 ,NFVI 管理 模块 
通常 运行 于 对 应 的 基础 设施 站 点 中 ,主要 功能 包括 :资源 发 现 虚 拟 资源 管理 分 配 \ 故 
障 处 理 等 ,为 VNF 的 运行 提供 资源 文 持 。 

> VNFM( VNF Manager) :VNF 管理 需 , 主要 对 VNF 的 生命 周期 (实例 化 .配置 .关闭 
等 ) 进行 控制 ,一 般 情 况 下 与 VNF 一 一 对 应 。 

> NFVO(NFV Orchestrator) : NFV 编排 融 , 是 NS( 网 络 服务 ) 生命 周期 的 管理 模块 , 同 
时 负责 协调 NS .组 成 NS 的 VNF 以 及 承载 各 VNF 的 虚拟 资源 的 控制 和 管理 。 

> OSS/BSS .OSS 是 指 通用 管理 系统 ( Operation Support System ) , BSS 是 指 业 务 支撑 系统 
(Business Support System ) ， 两 者 都 是 服务 提供 商 的 管理 功能 ,不 属于 NFV 框 染 内 的 功 
能 组 件 , 但 NFVO 需要 提供 对 0SS/BSS 的 接口 。 

> 了 网络 切 片 (Network Slicing ) :在 单一 的 物理 基础 设施 之 上 运行 多 个 虚拟 网 络 。 

> MANO( Management And Orchestration ) :管理 与 编排 ,NFV-MANO 由 NFVO( NFV 
编排 器 ) .VNFM( VNF 管理 絮 ) VIM( 虚拟 化 基础 设施 管理 融 ) 等 组 件 构成 。 

22.1.2.1 NFV 参考 架构 

我 们 再 来 看 一 下 NFV 的 参考 架构 。NFV 参考 架构 已 经 由 ETSI 给 出 ,如 图 23 一 17 所 示 ， 

包括 以 下 几 个 部 分 : 

> 通用 管理 和 业务 支撑 系统 :包括 0SS 和 BSS ,承担 了 基础 设施 和 虚拟 网 络 功能 的 管 
理 , 并 与 NFV-MANO 交互 网 络 服务 中 的 各 种 信息 ,是 整个 NFV 架构 中 最 接近 用 户 的 

> 网 络 服 务 系统 :包括 了 网 元 省 理 (EM) 和 虚拟 网 络 功能 (VNF) 两 大 部 分 ,其 中 EM 负 
责 VNF 的 创建 .配置 ,监控 等 管理 工作 。 

> 网 络 功能 虚拟 化 基础 设施 ( NFVI) :包括 NFV 系统 中 的 物理 和 虚拟 资源 ,其 中 物理 资 
源 包括 计算 网络. 存 储 ; 虚 拟 资 源 是 对 物理 资源 的 抽象 ,用 以 承载 VNF。 

> 网 络 功能 虚拟 化 管理 与 编排 (NFV-MANO) :包括 了 NFV 编排 右 、VNF 管理 器 和 虚拟 
化 基础 设施 管理 右 三 大 部 分 。 
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图 22-17 ETSI 定义 的 NFV 参考 架构 


更 进一步 地 来 看 ,NFV-MANO 是 整个 NFV 架构 中 的 核心 ,包括 了 NFV 编排 锅 (NFVO ) 、 
VNF 管理 器 (VNFM) 和 虚拟 基础 设施 管理 器 (VIM) 三 个 基本 组 件 , 各 个 组 件 具 有 以 下 特性 。 
1) NFVO 
> NFVO 是 NFV-MANO 中 最 重要 的 组 件 , 是 NFV 的 编排 引擎 。 所 谓 编 排 就 是 对 虚拟 化 
资源 和 基于 虚拟 化 资源 之 上 的 软件 的 管理 。 
> NFVO 可 以 进一步 分 为 服务 编排 带 ( Service Orchestrator) 和 资源 编排 锅 ( Resource 
Orchestrator ) 两 个 部 分 。 服 务 编排 面 回 网 络 功能 服务 ,资源 编排 包括 软件 资源 管理 和 
虚拟 机 资源 管理 。 
> NFVO 包括 一 个 北 回 接口 OS-NFVO 以 及 两 个 南 向 接口 NFVO-VNFM( 表示 NFVO 与 
VNFM 之 间 的 接口 ) 和 NFVO-VIM。 
> 0S-NFVO 是 面向 运营 商 03SS/BSS 和 MANO 之 加 的 接口 ,包括 网 络 服务 的 管理 接口 ， 
例如 描述 符 .生命 周期 .性 能 .告警 和 VNF 包 等 
> NFVO 也 支持 验证 并 授权 NFVI 的 资源 请 求 。 
2) VNFM 
包括 了 VNF 生命 周期 管理 .性 能 管理 .告警 管理 .指标 管理 和 操作 权限 管理 等 功能 的 接 
口 , 即 对 VNF 进行 创建 删除、 扩 ihe 恢复 等 操作 ,并 上 报 运 维 数据 。 
3) VIM 
VIM 管理 虚拟 化 层 (例如 OpenStack 等 ) ,可 以 将 VNF 部 署 到 不 同 的 云 上 ,支撑 VNF 间 
的 协作 。 第 见 的 资源 虚拟 化 平台 包括 OpenStack Vsphere AWS Azure 等 。 
目前 也 有 许多 MANO 的 开源 框架 ,包括 但 不 限于 下 列 项 目 : 
> ONAP 项 目 : 开 放 网 络 自 动 化 平台 ,是 由 AT&T 和 中 国 移动 主导 的 开源 项 目 ,成 员 包 
括 了 诸多 运营 商 和 设备 厂商。 
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> OSM( Open Source MANO ) 项 目 :ETSI 领导 的 并 由 运营 商 驱 动 的 MANO 开源 项 目 。 
> OPNEFY 项 目 : 运 营 商 级 的 开源 参考 平台 ,包括 构建 NFVI、VIM 等 ,并 将 API 包含 在 了 
其 他 NFV 元 素 中 。 
22.1.2.2 NEFV 接口 体系 
ETSI 也 为 NFV 各 层 之 间 定 义 了 接口 体系 ,如 图 22 -18 所 示 。 
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上 一。 执行 参考 点 -+-- 其 他 参考 点 一 一 主要 的 NFV 参 考点 
22 一 18 ETSI 定义 的 NFYV 接口 体系 


> Vi-Ha( Virtualization Layer*>Hardware Resources) :提供 了 虚拟 化 层 与 硬件 资源 层 
之 间 的 接口 ,可 以 按照 VNF 的 要 求 分 配 计 算 .存储 和 网 络 资源 实体 ,同时 收集 硬件 设 
和 省 的 信息 上 报到 虚拟 化 层 以 便于 对 硬件 平台 进行 运 维和 监控 。 

> Vn-Nf(VNEF*>NEFV Infrastructure) : 撕 层 便 件 被 虚拟 化 以 后 与 VNF 之 间 的 接口 。 这 
是 个 抽象 接口 ,并 没有 实质 的 界限 和 协议 ,只 是 为 了 将 基础 设施 与 网 络 功能 隔离 开 。 

> Or-Vnfm( Orchestrator* >VNF Manager) :这 是 NFV 管理 与 编排 中 的 接口 ,定义 了 次 
源 编排 屋 和 虚拟 网 络 功 能 管理 层 之 间 的 接口 协议 ,包括 资源 请 求 . 预 留 分 配 .授权 等 
内 容 , 也 包括 癌 虚拟 网 络 功 能 管理 模块 下 发 配置 信息 和 收集 状态 信息 。 

> Vi-Vnfm( Virtualized Infrastructure Manager*，>*VNEF Manager) :这 也 是 NFV 管理 与 
编排 中 的 接口 ,定义 了 虚拟 网 络 功能 管理 层 和 基础 设施 层 之 间 的 协议 ,负责 将 虚拟 网 
络 管理 层 的 资源 请 求 信息 下 发 到 基础 设施 层 并 上 报 硬件 资源 的 配置 和 状态 。 

> Or-Vi( Orchestrator 二 Virtualized Infrastructure Manager ) :这 也 是 NFV 管理 与 编排 
中 的 接口 ,定义 了 资源 编排 层 与 基础 设施 管理 层 之 间 的 协议 ,完成 计算 、 网 络 等 换 源 
的 请 求 下 发 并 上 报 虚 拟 资 源 和 硬件 资源 的 配置 和 状态 。 
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> Nf-Vi(NFVIVirtualized Infrastructure Manager ) :这 是 基础 设施 管理 层 与 基础 设 
施 层 之 间 的 接口 协议 ,包括 回 基础 设施 层 请 求 资源 和 回 管理 层 上 报 状态 信息 等 。 

> Ve-Vnfm( VNF/EM<**VNF Manager ) :这 是 虚拟 网 络 功能 管理 需 与 网 元 /虚拟 网 络 
功能 之 间 的 接口 协议 ,主要 负责 网 元 信息 配置 和 生命 周期 管理 。 

> Os-Ma( OSS/BSSONFV Management and Orchestration ) : 该 协议 包括 了 网 元 生命 
周期 管理 信息 .NFV 状态 配置 信息 ,管理 配置 策略 以 及 收集 NFVI 使 用 量 信息 。 

> Se-Ma ( Service 、VNEF and Infrastructure Description * NFV Management and 
Orchestration ) :这 一 协议 接口 并 未 在 图 22 - 18 中 体现 ,但 其 规定 了 VNF 部 署 模 板 
的 下 发 规范 ,模板 是 由 管理 和 编排 层 根据 网 络 运营 商 的 要 求生 成 的 。 


22.1.3 网 络 切片 


22.1.3.1 网 络 切 片 的 定义 
所 谓 网 络 切片 就 是 一 组 网 络 功能 .运行 这 些 功 能 的 资源 以 及 这 些 网 络 功能 特定 的 配置 
组 成 的 集合 。 网 络 切片 将 一 个 物理 网 络 分 割 成 多 个 虚拟 的 如 到 病 网 络 ,每 个 虚拟 网 络 (包括 
设备 . 接 人 网 .传输 网 和 核心 网 等 ) 之 间 都 是 逻辑 独立 的 ,因此 任何 一 个 虚拟 网 络 发 生 故 隧 都 
不 会 影响 其 他 的 虚拟 网 络 。 
从 以 上 描述 我 们 可 以 看 出 ,网络 切片 是 为 了 解决 网 络 功能 多 样 性 问题 而 诞生 的 技术 ,是 
一 个 逻辑 的 虚拟 网 络 ,也 是 一 个 复合 层 , 这 个 复合 层 包 括 了 服务 层 .基础 设施 层 以 及 它们 之 
间 的 映射 关系 。 
> 服务 层 : 从 迎 辑 的 角度 来 摘 述 网 络 功能 之 间 的 联系 和 组 成 ,这 些 网 络 功能 通 稼 以 软 
件 / 进 程 的 方式 被 定义 ,也 包括 了 接口 等 要素 。 
> 基础 设施 层 . 从 物理 的 角度 描述 了 一 个 网 络 切片 运行 所 需要 的 网 络 元 了 紊 和 资源 ,包括 
了 计算 资源、 网 络 资 源 等 。 
> 两 层 间 的 映射 和 关系: 映射 关系 具有 以 下 两 部 分 内 涵 : 
e 虚拟 功能 到 物理 功能 之 间 的 映射 :包含 了 网 络 转发 元 素 和 计算 资源 的 选择 ,这 些 
所 需要 的 资源 的 数量 和 部 赣 方式 是 由 服务 层 的 需求 决定 的 。 
。 虚拟 链 路 到 物理 链 路 之 间 的 映射 : 即 分 配 多 少 链 路 市 宽 给 该 网 络 切 放 ,这 也 是 由 
服务 层 的 需求 决定 的 。 
因此 ,我们 可 以 看 出 ,网 络 切片 是 网 络 从 “one size fits all” 回 “one size per service 的 演 
进 , 即 由 过 去 的 一 张 网 络 搞定 全 部 服务 的 形态 转变 为 一 个 服务 一 张 网 络 ( 虚拟 网 络 ) 的 形态 ， 
SDNANFV 则 成 为 了 实现 网 络 切片 最 直接 的 方式 。 
如 图 22 - 19 所 示 , 在 SDNXVNFV 的 网 络 切 片 中 , 子 网 实例 (sub-network instance ) 可 以 看 
作 一 组 相关 的 VNF 或 PNF ,而 网 络 切片 实例 (network slice instance) 则 定义 了 来 自 底层 资源 
集合 的 切片 。 
在 5G 时 代 , 网 络 切片 是 实现 业务 多 样 性 和 业务 加 速 的 关键 技术 ,特别 是 以 下 三 个 场景 
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22-19 SDN/NFYV 中 的 网 络 切 片 


中 对 于 网 络 切片 的 要 求 会 越 来 越 高 . 越 来 越 细致 ; 
> eMBB(Enhanced Mobile Broadband ,增强 移动 宽带 ):; 和 针对 的 是 大 流量 移动 冤 市 业 
务 ,5G 需要 以 10 Gbit/s 的 数据 传输 速率 文 持 数 万 用 户 。 
> uRLLC( Ultra-Reliable and Low Latency Communication ,高 可 靠 低 延 时 通信 ) :针对 
的 是 诸如 无 人 驾驶 等 超 高 可 靠 性 和 超 低 延 时 性 的 通信 业务 。3GPP 对 用 eMBB 和 
uRLLC 的 用 户 平 面 和 控制 平面 时 延 指 标 进 行 了 描述 ,要 求 eMBB 业务 的 用 户 平 面 时 
延 小 于 4 ms ,控制 平面 时 延 小 于 10 ms ;uRLLC 业务 的 用 户 平面 时 延 小 于 0.5 ms, 控 
制 平面 时 延 小 于 10 ms。 
> mMTC( Massive Machine Type Communication ,海量 机 器 通信 ) :针对 的 是 海量 物 联 
设备 组 网 传输 业务 。 
在 SG 环境 下 ,每 个 站 到 问 的 网 络 切片 均 由 无 线 接 人 网 .传输 网 和 核心 网 的 子 切 片 组 成 ， 
并 通过 端 到 端的 切片 管理 系统 进行 统一 管理 。 
在 5G 时 代 , 传 统 网 络 架 构 已 经 不 能 适应 局 速 而 多 样 的 网 络 服 务 了 ,因为 不 同 的 业务 场 
景 对 网 络 有 不 同 的 要 求 ,这 些 要求 之 间 甚 至 可 能 产生 冲突 。 大 使 用 单一 的 传统 网 络 服务 于 
这 些 场景 , 则 会 要 求 网 络 功能 面面俱到 ,这 样 过 于 复杂 ,甚至 彼此 冲突 而 无 所 适 从 ,从 而 使 网 
络 资 源 低 效 腔 有 种。 因此 整合 现 有 网 络 基础 设施 并 向 上 适 配 多 样 性 的 网 络 服务 就 成 了 处 于 中 
间 层 的 网 络 切 片 的 使 命 , 计 算 机 科学 领域 有 一 名 名言 :“ 任 何 问 题 都 可 以 通过 引入 一 个 间接 
层 来 解决 ” ,网 络 切 片 就 是 解决 上 述 问 题 的 “间接 层 ”。 
22.1.3.2 网 络 切片 的 分 类 与 部 署 
网 络 切片 一 般 分 为 独立 切片 和 共享 切片 两 类 。 
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> 独立 切片 :拥有 控制 平面 .用 户 平面 和 各 种 业务 功能 模块 并 且 具 有 独立 功能 的 切片 。 
这 种 切片 为 特定 的 用 尸 群 体 提供 独立 的 端 到 端的 专 网 服务 或 特定 功能 服务 。 

> 共享 切片 :可 以 供 各 种 独立 切 厂 共同 使 用 资源 的 切片 。 这 种 切片 可 以 提供 端 到 并 的 
功能 ,也 可 以 只 提供 部 分 共 至 功能 。 

这 两 种 切片 可 以 分 成 三 种 部 署 场景 。 

1) 独立 切片 与 共 圣 切片 纵 癌 分 离 的 场景 

在 这 种 场景 下 ,并 到 问 的 控制 平面 切片 作为 共 圣 切片 ,在 用 户 平 面 形 成 不 同 的 端 到 端的 

独立 切片 ,控制 平面 共 理 切片 为 所 有 的 用 户 服 务 ,对 不 同 的 独立 切片 统一 管理 ,包括 鉴 权 、 移 

动 性 管理 , 效 据 存储 等 ,如 图 22 -20 所 示 。 


司 22 -20 纵向 分 离 场景 
2) 独立 部 署 各 种 端 到 端的 独立 切片 的 场景 
在 这 种 场景 下 每 个 独立 切片 都 包含 完整 的 控制 平面 + 用户 平面 的 功能 ,形成 了 为 不 同 
用 户 群 体 服务 的 专 有 网 络 , 如 图 22 一 21 所 示 。 


到 22 -21 独立 部 署 场景 

3) 独立 切片 与 共享 切片 槛 回 分 离 的 场景 

在 这 种 场景 下 ,共享 切片 (通用 切片 ) 只 实现 了 一 部 分 非 端 到 病 的 功能 ,共享 切片 后 面 对 
接 了 不 同 的 个 性 化 的 独立 切片 ,如 图 22 一 22 所 示 。 


图 22 -22 横向 分 离 场景 


22.1.3.3 网 络 切片 的 生命 周期 

网 络 切 片 资源 的 生命 周期 大 致 可 以 分 为 5 个 阶段 ,这 5 个 阶段 贯穿 了 从 业务 开户 到 资 
源 注 销 的 全 过 程 :设计 阶段 一 购买 阶段 一 编排 阶段 一 运营 阶段 一 下 线 阶段 ,我 们 在 此 仅 就 比 
较 重 要 的 三 个 阶段 进行 展开 。 

1) 设计 阶段 

这 个 阶段 分 为 切片 设计 和 商业 设计 两 部 分 。 

> 切片 设计 :按照 规定 的 业务 需求 选择 相应 的 特性 (功能 .时 延 、 安 全 性 等 ) 设计 和 生成 

网 络 切片 模板 。 

> 商业 设计 :完成 差异 化 的 商业 推广 和 定价 规则 的 制定 。 

网 络 切 片 管 理 功 能 的 提供 方 要 为 需求 方 提供 切片 编辑 工具 和 标准 化 的 模板 ,模板 要 包 
括 结构 与 配置 的 描述 .如何 进行 实例 化 以 及 如 何 控制 网 络 切片 实例 等 要 素 。 

在 设计 过 程 中 ,设计 人 员 选 择 对 应 的 功能 组 件 ,以 满足 需求 方 提 出 的 网 络 业务 需求 , 利 
用 上 述 工 具 生 成 网 络 拓扑 和 各 部 分 之 间 的 交互 协议 ,并 结合 业务 特点 规划 相应 的 安全 性 .可 
靠 性 和 QoS 要 求 ,以 保证 资源 规模 能 够 匹配 性 能 指标 。 

总 之 ,设计 阶段 的 核心 输出 就 是 网 络 切片 模板 。 

2) 编排 阶段 

用 户 购买 了 网 络 切片 模板 后 就 进入 编排 阶段 ,在 这 个 阶段 要 完成 以 下 任务 : 

> 配置 切片 管理 器 解析 模板 ,并 为 之 后 创建 网 络 切片 准备 必要 的 逻辑 资源 。 

> 对 这 些 资 源 进 行 逻 辑 隔离 ,以 保证 该 切片 与 其 他 网 络 切片 对 应 的 资源 彼此 独立 。 

编排 实质 上 是 个 全 自动 化 的 过 程 。 一 个 切片 模板 可 以 经 过 多 次 编排 生成 多 个 网 络 切片 的 
实例 。 系 统 会 为 切片 选择 和 分 配 最 合适 的 物理 /虚拟 资源 ,并 完成 部 署 配 置 和 连通 性 测试 。 

端 到 端的 网 络 切片 涉及 接 人 网 .传输 网 .核心 网 等 网 络 , 具 有 较 高 的 管理 复杂 性 。 而 且 
各 个 网 络 的 设备 由 不 同 的 厂家 提供 ,因此 切片 的 编排 .部 署 和 对 接 都 存在 一 定 的 难度 。 

3) 运营 阶段 


运营 阶段 就 是 网 络 切 片 使 用 维护 的 阶段 了 。 网 络 运 营 方 通过 切片 管理 带 提 供 的 接口 进 
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行动 态 管理 ,包括 
> 对 资源 .性 能 等 实施 监控 ; 
> 对 网 络 切片 进行 升级 维护 和 调整 ,支持 切片 动态 伸缩 .切片 功能 增 减 等 ; 
> 根据 业务 需要 对 网 络 切片 进行 二 次 开发 。 


22.2 ”数据 平面 加 速 技术 


加 速 技术 的 本 质 就 是 “让 专业 的 人 做 专业 的 事 ”。 随 痢 硬件 计算 资源 性 能 的 提升 ,特别 
是 GPU NPU ASIC FPCA 等 异 构 计 算 体系 芯片 组 件 的 专业 度 越 来 越 深 ,使 用 这 些 便 件 计算 
资源 做 它们 最 擅长 的 事 可 以 大 大 加 快 计算 的 进程 ,节省 CPU 的 计算 资源 。 同 样 ,软件 模块 
如 果 能 有 效 地 利用 这 些 术 业 有 专攻 的 硬件 去 加 速 计算 进程 ,也 可 以 达到 很 好 的 性 能 提升 

DPDK 和 SPDK 分 别 作 为 网 络 资 源 和 存储 资源 的 软件 加 速 框 架 , 瞄 准 和 利用 了 计算 尽 户 
的 一 些 固 有 特点 和 长 处 ,从 而 使 目 身 的 计算 性 能 得 到 了 很 大 的 提升 。 


22.2.1 DPDK 框架 


在 SDN\NFV 的 大 至 景 下 ,网 络 传输 拉 术 领域 出 现 了 以 下 技术 趋 扫 .: 
> 使 用 通用 硬件 平台 (X86/X64 ) 进行 网 络 传输 业务 ,使 网 络 传输 的 软 便 件 功能 解 午 , 软 
件 不 再 绑 定 特定 的 硬件 ,也 与 处 理 融 架构 解 耘 ,这 契合 了 SDN 的 解 看 思想 。 
> 利用 通用 硬件 平台 将 网 络 数据 包 解 析 发 送 等 固定 而 重复 性 的 业务 “ 印 载 ”(offload ) 
到 专用 硬件 平台 中 进行 ,以 提升 传输 效率 。 
。 通用 硬件 平台 意味 着 啥 都 能 干 ,但 是 没有 对 某 一 项 “ 术 业 ”有 “专攻 ”, 因为 通用 硬 
件 毕 竟 要 兼顾 所 有 计算 场景 。 
e 利用 专业 硬件 去 做 大 量 重 复 性 的 专业 动作 ,将 原本 由 软件 完成 的 行为 “沉降 "到 便 
件 中 完成 可 以 大 大 提升 处 理 的 速度 。 
> 处 理 框架 逐渐 从 内 核 态 转移 到 用 户 态 。 这 样 做 一 是 降低 了 开发 的 门槛 ,二 是 提升 了 
系统 的 鲁 棒 性 (用 户 态 进程 前 溃 不 会 产生 BSOD ) ,三 是 减少 了 用 户 态 与 内 核 态 之 间 
的 切换 ,降低 了 开销 。 
面 对 上 述 技术 趋势 , Intel 联合 6Wind 提出 了 基于 IA(Intel Architecture) 平 台 的 DPDK 框 
架 。DPDK(Data Plane Development Kit ,数据 平面 开发 工具 包 ) 主要 面向 0SI 模型 的 第 二 和 
第 三 层 协议 处 理 , 是 基于 Intel X86/X64 平台 的 网 络 数据 包 处 理 框 架 , 用 于 Intel 通用 平台 的 
网 络 传输 开发 领域 。 但 实际 上 到 目前 为 止 ,DPDK 不 仅仅 限于 Intel 的 X86/X64 平台 ,包括 
ARM 和 PowerPC 在 内 的 体系 结构 都 得 到 了 DPDK 的 文 持 。 
DPDK 框架 本 质 上 是 一 套 网 络 数据 包 劳 路 处 理 的 方案 ,所 谓 劳 路 ,就 是 “架空 > 原 有 的 网 
络 协议 栈 驱 动 体系 ,使 数据 包 从 兄 一 个 纵 癌 协议 栈 经 过 ,从 而 进行 特定 的 处 理 。DPDK 不 是 
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一 种 新 的 技术 , 它 是 基于 "DPDK 所 在 通用 平台 只 是 用 于 处 理 网 络 数 据 包 的 收发 解析 而 不 用 


于 其 他 通用 型 网 络 业务 "这 样 一 种 前 提 的 网 络 加 速 优化 方案 ,具有 以 下 两 种 设计 思想 : 
> 基于 通用 计算 平台 便 件 的 各 种 加 速 特性 (硬件 加 速 ) ; 
> 对 操作 系统 .网络 协议 栈 驱 动 的 软件 进行 优化 改进 (软件 加 速 ) 。 


采用 DPDK 框架 的 旁 路 化 网 络 协 议 栈 如 图 22 -23 所 示 。 


DPDK 
Lib 和 和 应 用 
DPDK PMD 


用 户 态 空间 
内 核 态 空间 


UIO 
UIO 张 动 
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队 | 区 | | 蔡 | | 也 | 区 | | 区 
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快速 路 径 


分 包 队 列 
NIC 全 
上 行 流量 


22-23 采用 DPDK 框架 的 旁 路 化 网 络 协议 材 


上 述 的 前 提 条 件 限定 了 DPDK 框架 只 能 用 于 网 络 传输 领域 ,一 般 用 于 SDN 交换 机 .路 由 
央 网关 等 网 络 设备 。 而 这 两 种 设计 思想 也 是 对 通用 rane 的 一 种 
破坏 ,目的 是 更 专心 地 处 理 网 络 数据 包 , 正 所 谓 “ 不 破 不 立 ”。 当 然 ,这 一 破 一 立 也 要 求 
DPDK 框架 的 操作 系统 是 基于 Linux 的 ,这 是 因为 目前 条 件 下 基于 Windows 的 平台 实现 网 络 
协议 栈 的 “架空 " 远 不 如 Linux 平台 方便 。 

22.2.1.1 传统 的 网 络 传输 处 理 框 架 

传统 的 网 络 数据 包 的 处 理 是 基于 中 断 机 制 的 ,我 们 以 收 到 网 络 数据 包 为 例 来 理解 其 流 
程 ,如 图 22 -24 所 示 

(1) 网 卡 收 到 网 络 数据 包 后 产生 硬件 中 断 。 

(2) 中 断 服 务 例 程 进行 网 络 数据 包 的 预 处 理 , 即 执行 中 断 服 务 例 程 的 前 半 段 。 

(3) 执行 中 断 服务 例 程 的 后 半 段 ,在 内 核 处 理 线程 的 调度 下 执行 DPC 处 理 , 将 网 络 数据 
包 癌 上 层 ( 协 议 栈 驱动 ) 传递。 

(4) 内 核 中 网 络 协 议 栈 自 底 向 上 地 解析 和 处理 网 络 数 据 包 。 

(5) 通过 AFD( 辅助 功能 驱动 ) 将 网 络 数 据 包 递交 到 用 户 态 的 应 用 程序 缓冲 区 。 

(6) 应 用 程序 收 到 de ee 


到 应 用 屋 


图 22-24 基于 中 断 机 制 的 网 络 传输 处 理 流程 
471 


| 应 用 软件 开发 协议 栈 ye 


可 以 看 出 ,基于 中 断 机 制 的 网 络 数据 包 处 理 是 个 非常 元 长 的 流程 。 对 于 少量 的 包 处 理 
还 比较 得 心 应 手 , 如 果 网 络 数据 包 的 并 发 量 很 大 ,那么 源源 不 断 的 中 断 会 使 系统 处 于 上 下 文 
频繁 切换 的 巨大 性 能 开销 中 。 中 断 , 英 文 为 Interrupt, 也 可 以 被 解释 为 “打扰 ”。 试 想 一 个 心 
无 劳 警 专心 工作 的 人 被 唆 唆 不 休 的 外 部 事件 打扰 该 是 多 么 毅 泪 的 一 件 事 情 啊 ! 
由 此 可 以 看 出 ,传统 网 络 处理 框 架 在 处 理 高 速 大量 的 网 络 数据 包 时 具有 以 下 岗 端 : 
> 中 断 机 制 使 线程 上 下 文 切 换 开 销 达 到 最 大 。 
> 处 理 流 程 过 于 宛 长 ,破坏 了 网 络 数据 包 处 理 的 高 速 性 .实时 性 。 
> 对 于 大 量 的 处 理 步 又 相 同 的 网 络 数据 包 ,协议 栈 驱 动 处 理 的 步 又 过 于 老 杂 ,许多 步骤 
都 是 不 必要 的 ,进一步 降低 了 处 理 的 时 效 性 。 
> 存在 内 核 态 内 存 空 间 向 用 户 态 内 存 空 间 拷 贝 的 巨大 开销 。 
> 内 核 工作 在 多 核 系 统 中 ,必须 考虑 全 局 一 致 性 问题 。 但 即使 采用 了 Lock Free 这 样 的 
机 制 也 避免 不 了 锁 总 线 内存 屏障 等 市 来 的 性 能 损耗 。 
> 在 多 路 CPU 平台 中 ,中 断 处 理 可 能 跨越 多 个 CPU (例如 中 断 发 生 在 CPU0 ,ISR 却 运 行 
在 CPU1 ) ,这 样 做 可 能 导致 缓存 命中 失效 ,从 而 带 来 了 性 能 损耗 。 
22.2.1.2 DPDK 框架 关键 技术 
DPDK 采用 劳 路 化 处 理 机 制 经 开 了 固有 的 内 核 网 络 协议 栈 , 其 流程 也 做 了 催化 。 应 该 
说 DPDK 的 通用 性 不 强 , 因 为 DPDK 严格 来 讲 只 是 个 数据 包 处 理 框架 ,IO 的 单位 都 是 “ 帧 ” 
(Frame) ,需要 上 层 各 种 协议 栈 IO 模型 的 配合 ,例如 TCP 组 帆 .分 包 ,发 送 窗 口 计 算 等 功能 
它 都 是 没有 的 ,因此 软件 生态 远 不 如 现 有 操作 系统 的 协议 栈 丰富 (例如 前 文中 介绍 的 
Windows 下 的 IOCP 机 制 \Linux 下 的 事件 多 路 分 离 机 制 以 及 更 上 一 层 的 用 户 态 的 ACE 框 染 
等 就 不 能 使 用 了 ,腾讯 和 阿里 针对 DPDK 都 开发 了 上 月 己 的 协议 栈 ,如 F-Stack 和 Ali-Stack , 以 
支持 socket 机 制 和 原 有 的 模型 与 框架 ) 。 但 从 另 一 个 角度 来 说 ,DPDK 框架 本 来 就 是 用 于 基 
于 通用 平台 的 交换 机 和 路 由 器 等 网 络 设备 的 ,其 场景 的 专 有 性 和 细 分 性 也 使 上 述 问 题 不 再 
成 为 问题 。 
对 比 基 于 中 断 的 机 制 ,DPDK 框架 的 处 理 流程 做 了 很 大 的 调整 ,如 图 22 -5 所 示 : 
(1) 网 卡 收 到 网 络 数 据 包 后 产生 硬件 中 断 。 
(2) 由 于 DPDK 接管 了 原 有 的 协议 栈 处 理 流程 ,因此 中 断 服务 例 程 被 跳 过 ,放弃 执行 。 
(3) 由 于 应 用 层 实 现 已 经 建立 了 从 用 户 态 缓冲 区 到 内 核 态 网 络 数据 包 缓 冲 区 的 映射 ， 
因此 用 户 态 的 应 用 层 通过 直接 映射 机 制 和 主动 查询 方式 获取 网 络 数据 包 。 
(4) 应 用 进程 对 网 络 数据 包 进 行 处 理 。 


硬件 中 断 


图 22 一 25 基于 DPDK 框架 的 网 络 传输 处 理 流程 


可 见 针 对 基于 中 断 机 制 的 处 理 流程 中 的 晤 端 ,DPDK 框架 做 了 以 下 改进 : 
> 据 莽 了 中 断 机 制 ,使 用 轮 询 机 制 主 动 查 询 网 络 数据 包 ,抵消 了 中 断 切 换 的 系统 开销 ; 
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> DPDK 框架 大 大 简化 了 网 络 协议 栈 的 处 理 流程 ; 
> 使 用 UIO 机 制 ,最 大 限度 地 减少 了 路 用 户 态 空间 的 内 存 拷贝 ; 
> 使 用 CPU 亲 和 人 性 消除 了 路 CPU 处 理 的 切换 开销 ; 
> DPDK 框架 提供 了 多 种 功能 库 ,使 DPDK 不 仅仅 定位 为 网 络 协议 栈 ,也 成 了 网 络 IO 开 
发 框架 。 
e 可 以 基于 DPDK 框 染 实现 网 络 报 文 的 标准 流水 线 模型 。 
es DPDK 框架 提供 了 包括 librte_port ,librte_table 和 librte_pipeline 在 内 的 功能 库 , 定 
义 了 处 理 网 络 数据 包 的 标准 方法 。 
前 文 说 过 ,DPDK 框架 是 对 网 络 协议 栈 的 劣 路 蕉 代 和 显 窗 , 但 其 本 号 并 没有 什么 新 般 的 
技术 ,因此 可 以 认为 DPDK 是 一 个 IO 优化 方案 ,是 多 种 优化 技术 的 组 合 。 这 些 技术 包括 : 
1. UIO 技术 
Linux UIO( User space W/O, 用 户 空间 IO) 技 术 是 运行 在 用 户 态 空间 的 IO 技术 。Linux 
系统 中 第 规 的 设备 驱动 都 是 运行 在 内 核 态 空间 的 ,用 户 态 进程 使 用 系统 调用 API 与 驱动 交 
互 。UIO 技术 是 将 小 部 分 驱动 运行 在 内 核 态 空间 ( 便 中 断 只 能 在 内 核 态 空间 处 理 ) ,大 部 分 
运行 在 用 户 态 空间 ,用 户 态 进程 无 需 跨 空间 即 可 访问 驱动 程序 。 
但 UIO 不 是 说 驱动 “全 部 都 "在 用 户 态 空间 ,在 内 核 态 空 间 中 可 能 也 存在 一 部 分 功能 模 
块 , 这 部 分 内 核 模块 一 般 要 完成 两 项 工作 : 
> 分 配 记录 设备 需要 的 资源 ,并 且 注 册 UIO 设备 驱动 。 注 册 是 通过 调用 Linux 的 UIO 
注册 API( uio_register_device 方法 ) 实 现 的 。 注 册 后 设备 的 内 核 态 地 址 空间 会 被 
mmap 方法 映射 到 用 户 态 内 存 空间 中 ,以 方便 用 户 态 进程 下 接 操 纵 设备 内 存 空间 。 
> 实现 一 小 部 分 中 断 服务 例 程 。 
而 在 用 户 态 空间 中 的 那 部 分 驱动 程序 的 职责 一 般 是 通过 read .poll 等 方法 获取 底层 中 断 
事件 ,并 处 理 读 写 数据 等 具体 事务 。 


内 核 态 空间 


接口 


3 太空 | 立 用 进程 用 户 态 驱 到 ae 
用 户 态 空间 应 用 进程 用 户 态 驱动 。 jmap0) 


图 22 一 26 ”UIO 框架 与 机 制 
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正 是 基于 UIO 技术 ,DPDK 框架 实现 了 内 核 协议 栈 驱 动 的 劳 路 化 。 本 质 上 UIO 技术 是 
通过 回 用 户 态 空间 的 进程 暴露 文件 接口 实现 的 ,例如 在 图 22 -26 中 对 于 /dev/uiox 的 该 写 就 
是 直接 对 设备 内 存 的 该 写 。 

2. SIMD 机 制 

SIMD 即 单 指令 多 数据 流 (Single Instruction Multiple Data) ,DPDK 框架 基于 回 量 式 编 程 ， 
采用 批量 方式 可 在 一 个 周期 内 同时 处 理 多 个 网 络 数据 包 。 

3. 内 存 池 技术 

DPDK 框架 所 使 用 的 内 存 池 指 的 是 用 户 态 空间 的 内 存 池 ,或 者 说 内 核 态 空间 和 用 户 态 
空间 的 内 存 交 换 不 是 通过 内 和 存 拷贝 方式 ,而 是 只 做 控制 权 转 移 。DPDK 使 用 内 存 池 存放 代 
表 网 络 数据 帧 的 Mbuf 结构 。 

DPDK 将 网 络 数据 帧 封 凌 在 Mbuf 数据 结构 中 ,当然 Mbuf 也 可 以 用 于 封装 通用 的 控制 
信息 。Mbuf 的 头 部 占用 两 条 Cache line( Cache line 对 齐 有 利于 头 部 数据 载 人 缓存) ,第 一 条 
Cache line 存放 包 处 理 中 的 基础 性 的 .需要 频 爱 访问 的 信息 ,第 二 条 Cache line 存放 一 些 扩展 
信息 。 对 网 络 数 据 帧 封 朗 和 处 理 时 ,如 有 末 数 据 量 少 则 可 以 采用 一 个 Mbuf 存放 ,如 图 22 一 27 
所 示 ; 而 面 对 巨 型 帧 ,单个 Mbuf 是 放 不 下 的 ,此 时 可 以 采用 Mbuf 链表 的 方式 存放 (Mbuf 有 
一 个 指 回 下 一 个 Mbuf 结构 的 指针 ,可 构成 链表 ) ,如 图 22 -28 所 示 。 


| 
re | 
) rte_pktmbuf_pktlen(m) | 
rte_pktmbuf_mtod(m) rte_pktmbut_datalen(m) 
司 22-27 单 帧 的 Mbuf 结构 


rte_pktmbut_datalen(m1) 


rte_mbuf 


ml—>pkt_next rte_pktmbuf_datalen(m2) 
CC 


rte_mbuf 
| 结构 报头 


m2—>pkt_next rte_pktmbuf_datalen(m3) 
ww- 


| rte_mbuf | head sr Ff Ha i we 
网 络 数据 帧 内 容 


m3—>pkt_next==NULL 
474 图 22-28 巨型 帧 的 Mbuf 结构 
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rte_mbuf 结构 对 象 存 放 在 内 存 池 中 ,内 存 池 使 用 环形 缓冲 区 来 保存 空 闪 对 象 。head room 
用 来 存储 和 系统 中 其 他 实体 交互 的 信息 ,如 控制 信息 、 帧 内 容 、 事 件 等 。 巨型 帧 的 元 数据 仅 出 
现在 第 一 个 Mbuf 结构 中 。 网 络 帆 元 数据 的 一 部 分 内 容 是 由 DPDK 的 网 卡 驱 动 写 人 的 。 

我 们 在 封装 和 处 理 网 络 帧 时 , 既 可 以 将 网 络 帧 元 数据 和 帧 本 身 的 内 容 存 放 在 固定 大 小 
的 同一 段 缓存 中 ,也 可 以 将 元 数据 和 帆 本 号 的 内 容 存 放 于 两 段 缓 存 中 。 显 而 易 见 ,前 者 注重 
访问 效率 ( 只 访问 一 次 缓存 即 可 获得 全 部 数据 ) ;后 者 注 章 缓存 使 用 效率 (数据 帧 大 小 可 以 
日 定义 )。 为 了 访问 效率 ,DPDK 选择 了 前 者。 

内 存 池 使 用 环形 缓冲 区 保存 Mbuf 数据 结构 ， Mbuf past 
实际 上 在 内 存 池 初始 化 的 时 候 也 同时 生成 了 许多 
空 的 Mbuf 结构 ,这 样 在 后 面 使 用 时 就 不 需要 耗费 
时 间 创 建 了 。 

这 里 要 注意 的 是 ,对 于 一 个 网 络 数据 帧 , 它 目 
身 的 帧 内 容 和 代表 它 的 Mbuf 结构 是 存储 在 两 个 
不 同 的 环形 缓冲 区 里 的 ,当然 帧 内 容 会 与 Mbuf 一 
一 对 应 地 关联 起 来 ,如 图 22 - 29 所 示 。 一 般 情况 22 -2 双环 形 缓冲 区 结构 
下 对 帧 的 操作 就 是 对 Mbuf 的 操作 ,只 有 在 需要 的 
时 候 才 会 访问 实际 存放 网 络 帧 的 缓冲 区 ,这 进一步 降低 了 内 存 拷贝 的 开销 。 

4. 大 页 内存 机 制 

在 X86/X64 系统 下 ,内 存 页 大 小 为 4 KB。 在 面 对 大 并 发 量 的 网 络 数据 包 处 理 时 ,内 存 
页 的 倒 换 还 是 很 频繁 的 ,因此 使 用 大 页 内 存 (Huge Pasge) 机 制 (例如 设置 4 MB 或 1 GB 的 内 
存 页 ) 甚 至 巨 页 内 存 机 制 可 以 有 效 地 减少 内 存 页 的 倒 换 ,并 有 效 地 提高 缓存 的 命中 率 , 对 报 
文 的 转发 性 能 影响 很 大 。 使 用 大 页 内存 就 是 为 了 使 程序 尽量 独占 内 存 以 防止 内 存 换 出 , 扩 
大 页 表 的 命中 率 。 

5. PDM 机 制 

DPDK 网 卡 驱动 完全 抛弃 中 断 模式 而 改 为 基于 轮 询 方式 收 包 , 避 免 了 中 断 开 销 , 这 种 机 
制 窗 称 PMD(Pool Mode Driver, 池 模式 驱动 )。 但 由 于 运行 在 PMD 模式 下 的 处 理 需 核心 会 处 
于 100% 满 负 和 葆 的 状态 ,因此 网 络 空 时 处 理 絮 长 期 空转 ,会 带 来 能 耗 问 题 。 

DPDK 改进 了 PMD 机 制 ,推出 Interrupt DPDK 模式 , 即 没 有 网 络 数据 包 的 时 候 处 理 器 中 
的 线程 进入 睡眠 状态 ,此 时 改 为 中 断 通知 方式 , 且 可 以 与 其 他 非 DPDK 线程 共享 同一 个 处 理 
融 核 ,但 是 DPDK 线程 拥有 更 高 的 调度 优先 级 。 只 有 当 大 量 网 络 数据 包 源 源 不 断 地 到 来 时 ， 
处 理 需 才 局 动 PMD 机 制 。 

PMD 虽 是 基于 UIO 技术 的 ,但 其 内 核 部 分 负责 将 网 卡 PCI 资源 映射 到 用 户 态 空间 中 
用 户 态 部 分 负责 轮 询 网 卡 PCI 配置 空间 的 内 容 以 进行 网 络 数据 包 收 取 , 用 户 态 驱动 也 可 以 
通过 网 卡 寄存 器 的 状态 来 判断 是 否 有 数据 包 到 达 。 总 体 来 看 ,PMD 的 特点 就 是 用 户 态 (为 
主 ) , 轮 询 和 零 拷贝 。 当 然 也 不 是 所 有 场景 部 适合 PMD ,只 有 在 IO 设备 性 能 远 好 于 处 理 需 
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性 能 且 VO 吞吐 量 非 常 大 的 情况 下 才 人 合适, 反之 可 能 中 断 模 式 更 有 效率 。 

6. 无 锁 化 的 循环 队列 机 制 

DPDK 框架 基于 Linux 内 核 的 无 锁 化 环形 缓冲 队列 机 制 , 文 持 单 生产 者 人 队 - 单 消费 者 
出 队 和 多 生产 者 人 队 - 多 消费 者 出 队 的 操作 模式 ,在 传输 时 可 以 提高 传输 效率 并 保证 数据 同 
步 , 如 图 22 -30 所 示 。 

环形 缓冲 区 一 般 有 一 个 庶 指 针 和 一 个 写 指针 ,分 别 指 癌 队列 中 的 可 读数 据 和 可 写 数据 。 
当 存在 多 个 谈 写 用 户 访 问 环形 队列 的 时 候 , 应 该 添加 互 斥 机 制 来 保护 访问 的 并 发 性 。 在 Linux 
内 核 中 ,kfifo 就 是 一 种 无 锁 化 的 环形 队列 结构 ,kfifo 的 英文 全 称 就 是 "“Kerel First In First 
Out”, 它 及 用 了 并 行 无 锁 技 术 , 实 现 了 不 加 锁 就 可 同步 多 生产 者 一 多 消费 者 模式 的 共 至 队列 。 


消费 数据 


| 出 队 
图 22-30 kfifo 数据 结构 

7. 处 理 器 杀 和 性 机 制 

利用 处 理 器 亲 和 人 性 (CPU Affinity ) 机制 将 IZO 线程 绑 定 到 若干 个 CPU 核 上 ,以 此 减少 线 
程 调度 和 切换 的 开销 。 同 时 由 于 线程 被 绑 定 在 固定 的 CPU 核 上 ,因此 CPU 缓存 的 命中 率 大 
大 提高 ,不 会 出 现 前 文 所 描述 的 中 断 发 生 与 中 断 处 理 跨 CPU 的 情况 。 

CPU 亲 和 性 机 制 包含 两 种 策略 .Soft Affinity( 软 亲 和 ) 和 Hard Affinity( 硬 亲 和 ) 。 

> Soft Affinity 仅 是 一 个 建议 机 制 ,如 果 不 可 避免 ,调度 占 还 是 会 把 本 线程 调度 到 其 他 

CR 
> Hard Affinity 是 一 种 强制 机 制 ,是 调度 需 必 须 遵守 的 规则 ,无 论 是 否 可 以 避免 ,都 不 能 
将 本 线程 调度 到 其 他 CPU 上 。 

8. 多 队列 机 制 

多 队列 网 卡 技术 最 初 是 用 来 解决 网 络 0O 的 QoS 问题 的 。 后 来 随 着 网 络 带 宽 的 不 断 提 
升 , 单 核 CPU 已 不 能 满足 网 卡 的 需求 ,通过 多 队列 网 卡 驱 动 的 支持 ,将 各 个 队列 所 绑 定 到 不 
同 的 CPU 核 上 ,以 满足 网 卡 高 吞吐 量 的 需要 。 

DPDK 将 网 卡 的 收发 队列 与 CPU 核 绑 定 , 也 就 是 说 该 队列 收 到 的 报 文 都 交 给 队列 所 绑 
定 核 上 的 DPDK 报 文 处 理 线程 处 理 。 可 以 采用 两 种 方式 将 网 络 数 据 包 投 递 到 指定 的 队列 
中 :根据 网 络 数据 包 五 元 组 的 散 列 值 投递 到 某 个 队列 ;通过 查找 Flow Director 表 项 将 网 络 数 
据 包 投 递 到 某 个 队列 。 前 者 被 称 为 接收 端 扩展 ( Receive Side S$caling,RSS) 机 制 ,这 是 由 微软 
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提出 的 ;后 者 被 称 为 包 字 段 精确 匹配 机 制 ,也 叫 作 Flow Director, 是 由 Intel 提出 的 。RSS 是 基 
于 网 卡 硬件 的 技术 , 散 列 值 的 计算 必须 在 硬件 芯片 中 完成 (软件 的 计算 开销 很 高 ) 。Flow 
Director 也 是 基于 网 卡 硬件 的 技术 , 且 目 前 仪 限 于 Intel 的 网 卡 ,通过 在 网 卡 中 设置 的 Flow 
Director 表 ( 类 似 SDN 交换 机 中 的 流 表 ) 来 指引 网 络 包 的 后 续 处 理 步 又。 驱动 程序 负责 Flow 
Director 表 的 维护 ,可 以 对 不 同类 型 的 包 指 定 不 同 的 Flow Director 关键 字 。 图 22 -31 展示 了 


这 两 种 机 制 的 比较 。 
i JI99 条 
CPU -PU 


关键 字 输 入 六 IT 


—— NY 2 (OEP/SYM) 
散 列 计算 


散 列 值 三 I 


散 俐 值 与 
队列 对 应 表 


Flow Director 


队列 
图 22-31 RSS 机 制 与 Flow Director 机 制 的 比较 


这 两 种 方式 可 以 结合 使 用 ,也 可 以 仅 使 用 一 种 。 例 如 对 于 网 络 数据 报 文 ,可 以 采用 RSS 
机 制 散 列 到 不 同 的 处 理 器 核 上 进行 转发 ,如 图 22 -32 所 示 ; 而 对 于 网 络 控制 报 文 ,可 以 采用 
Flow Director 机 制 路 由 到 专用 的 处 理 需 核 上 处 理 和 转发 。 


Indirection table 


上 行 包 


22 -32 ”RSS 方式 逻辑 视图 pg 
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9. DDIO 技术 

DDIO( Data Direct W/O ,数据 直接 /0O) 技 
术 是 Intel 提出 的 一 种 技术 ,只 能 应 用 于 Intel 
的 CPU 上 (Intel Xeon ES 及 以 上 的 处 理 器 ) 。 第 三 级 缓存 
DDIO 是 一 种 能 够 使 服务 需 更 快 处 理 网 络 包 
的 技术 ,可 以 有 效 提高 /0 吞吐 率 并 降低 延 
迟 。 其 本 质 就 是 使 网 卡 缓存 与 CPU 通过 LLC 


CPU Socket 
Man/Cores/socket 


(Last Level Cache, 三 级 缓存 ) 直接 交换 网 络 数 RO 

据 , 从 而 绕 过 主 存 , 既 缩短 了 交互 的 流程 ,也 一 
-ee Intelk: 划 下 1 | 

提升 了 交互 的 速度 ,如 图 22 -33 所 示 。 当 然 1 控制 器 


这 要 求 绥 人 存 具 有 较 大 的 容量 ,因此 DDIO 技术 
一 般 第 见于 三 级 缓存 而 罕见 于 一 、 二 级 缓存 。 

下 面 我 们 根据 网 卡 发 送 网 络 包 和 收 到 网 
络 包 两 种 情况 来 感受 DDIO 技术 带 来 的 效率 图 22 -33 ”基于 DDIO 的 网 络 数据 交互 
提升 。 

1 ) 网 络 数据 包 发 送 流程 

(1) 不 采用 DDIO 技术 

在 网 络 数据 包 发 送 时 ,CPU 需要 将 待 发送 的 报 文 写 到 网 卡 缓存 中 。 因 此 首先 要 将 缓存 中 
的 报 文 “ 热 数据 " 写 到 内 存 中 ,还 需要 通知 网 卡 进行 谈 取 操作 (站 在 网 卡 的 角度 ,要 发 送 的 数据 
在 内 存 中 ,因此 需要 从 内 存 中 * 斌 取 " 要 发 送 的 内 容 到 网 卡 目 己 的 缓存 中 ) 。 网 卡 从 主 存 谈 取 了 
数据 包 并 拷贝 到 网 卡 内 部 的 缓存 ,最 后 再 发 送 到 网 络 上 。 可 见 整个 过 程 涉及 两 次 内 存 读 写 。 

(2) 采用 DDIO 技术 

在 网 络 数据 包 发 送 时 ,直接 将 尚 在 LLC 中 的 报 文 “ 热 数据 ” 写 到 PCI 总 线 上 ,继而 写 到 
网 卡 缓存 中 ,直接 统 过 了 主 存 的 该 写 。 

两 种 方式 下 的 网 络 数据 包 发 送 流程 如 网 22 -34 所 示 。 


CPU 
Nan/Oores/Socket 
9 
外 齐 屋 备 /控制 磊 


结构 互联 总 线 


CPU Socket 
Nian/Cores/Socket 


外 部 设备 /控制 器 上 


结构 互联 总 线 疆 构 互 联 总 线 
(未 采用 DDIO 技 术 ) 邓 用 DDO 这 


加 22 一 34 两 种 方式 下 的 网 络 数据 包 发 送 流程 
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2) 网 络 数 据 包 接收 流程 

(1) 不 采用 DDIO 技术 

当 网 卡 收 到 网 络 数据 包 时 ,将 收 到 的 内 容 投 送 到 PCI 总 线 上 ,继而 写 到 内 存 中 。 如 果 
Cache 中 存在 这 块 内 存 的 Cache line, 则 需要 将 Cache 中 的 内 容 先 与 回 到 主 存 中 (如 条 Cache 
中 是 脏 数据 ) ,再 写 回 到 磁盘 ,然后 新 的 网 络 包 才 能 被 写 到 主 存 中 。 

写 人 完成 后 网 卡 驱 动 通知 接收 线程 :一 个 新 的 网 络 报 文 到 达 ,CPU 探测 缓存 是 否 命 中 ， 
不 命中 则 从 内 存 中 访问 该 网 络 报 文 。 

(2) 采用 DDIO 技术 

当 网 卡 收 到 网 络 数据 包 时 直接 将 收 到 的 内 容 投递 到 PCI 总 线 上 ,继而 直接 写 到 LLC 中 ， 
从 而 绕 过 了 主 存 的 庶 写 。 如 果 这 块 缓存 区 域 恰好 可 用 , 则 直接 上 履 盖 更 新 Cache 中 的 内 容 , 并 
通知 CPU ;各 不 可 用 , 则 首先 在 LLC Cache 中 分 配 一 块 区 域 并 更 新 Cache 表 , 以 表明 该 内 容 
对 应 于 内 存 中 的 某 个 区 域 。 

两 种 方式 下 的 网 络 数据 包 接收 流程 如 图 22 - 35 所 示 。 


(CPU Socket 
NMalnm CoresAOcKet 


CPU Socket 
Nan/Cores/Socket 


LO 总 线 


| 外 部 该 香 / 控 制 奉 


结构 互联 总 线 
(采用 了 DDIO 技 术 ) 


1/O 总 线 


外 于 充 和 钾 / 控 制 北 


结构 互联 总 线 
(未 采用 DDIO 技 术 ) 


图 22-35 ”两 种 方式 下 的 网 络 数据 包 接收 流程 
10. 硬件 加 速 技术 
通过 将 基础 性 重复 性 的 软件 工作 “ 缉 载 ”给 硬件 去 完成 是 提高 执行 效率 极为 有 效 的 手 
段 。 在 DPDK 框架 中 ,硬件 加 速 的 含义 是 将 原本 由 软件 实现 的 功能 “* 印 载 ?给 网 卡 ,例如 计算 
分 析 类 任务 ,TCP 组 包 类 任务 和 TCP 分 段 类 任务 等 。 
> 计算 分 析 类 任务 :包括 VLAN 的 硬件 印 载 ,例如 VLAN Tag 的 识别 .过滤 .剥离 插入 和 
对 多 层 VLAN 的 处 理 ; 精 准 事件 同步 协议 中 对 于 时 间 惟 的 支持 ;三 层 和 四 层 网 络 包 中 
对 于 校 验 和 ( Checksum ) 的 校 验 文 持 等 。 
> TCP 组 包 类 任务 : 文 持 对 TCP 收 包 时 的 小 片段 组 合 , 以 便于 向 上 层 驱 动 回调 较 大 的 
> TCP 分 段 类 任务 .支持 对 TCP 大 片段 发 送 时 的 分 片 处 理 。 
11. 其 他 机 制 
为 了 实现 IO 高 效率 ,在 DPDK 框架 中 也 采用 了 软件 调 优 的 思想 : 
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> 及 用 Cache line 对 齐 .Cache 数据 预 取 等 东 略 加 快 缓存 中 数据 的 读 取 和 处 理 速度 。 
> 软件 架构 采用 了 去 中 心 化 的 设计 思想 ,尽量 避 人 饮 全 局 共 侍 ,以 减少 全 局 苋 争 ,人 避 倪 失 
呐 回 扩展 的 能 力 。 
> 在 NUMA 架构 下 不 跨 市 点 使 用 内 存 , 避 人 免 内 存 的 远程 访问 。 
> 不 使 用 慢 速 API。DPDK 提供 了 Cycles 接口 ,例如 rte_get_tsc_cycles 方法 就 是 基于 高 
精度 事件 计时 需 (High Precision Event Timer, HPET ) 或 时 间 惟 计数 需 (Time Stamp 
Counter,TSC ) 实现 的 。 这 两 种 方式 均 基 于 寄存 天 ,卓然 要 比 传 统 的 基于 内 存 的 
gettimeofday 方法 高 效 许多 。 
> 禁止 降 频 ,禁用 Intel Turbo Boost 机 制 ,固定 CPU 频率 ,以 避免 频率 变化 市 来 的 失 准 
问题 。 
可 以 说 ,DPDK 框架 的 高 效率 来 源 于 各 种 加 速 机 制 的 “组 合 拳 ” ,这 些 拳法 中 的 每 一 种 都 
不 是 什么 新 技术 ,但 是 联合 起 来 使 用 就 会 产生 神奇 的 效果 ,因此 我 们 说 DPDK 框架 就 是 一 整 
套 优化 方案 的 组 合 。 
22.2.1.3 DPDK 框架 的 结构 和 工作 流程 
DPDK 框架 的 主要 模块 如 图 22 -36 所 示 。 这 些 模块 以 基础 软件 库 的 形式 为 上 层 应 用 提 
供 基 础 开发 组 件 ,同时 这 些 库 也 充分 利用 了 上 文中 所 描述 的 软 人 硬件 加 速 技术 ,为 高 速 处 理 网 
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图 22 一 36 ”DPDK 框架 视图 


> 核心 库 ( Core Libs) ;提供 了 系统 环境 抽象 层 ( Environment Abstraction Layer,EAL) 大 
页 内 存 机 制 、 绥 存 池 机 制 . 定 时 硕 和 无 锁 环 形 队 列 机 制 等 基础 加 速 功能 。 其 中 EAL 
也 被 称 为 环境 适 配 层 , 它 提供 了 一 套 API, 用 于 系统 初始 化 获取 CPU 核心 数 .线程 数 
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等 配置 信息 ,并 能 发 现 外 围 的 PCI 设备 .设置 Huge Page . 预 留 与 高 速 缓存 相应 的 缓冲 
区 和 摘 述 符 环 .初始 化 轮 询 模 式 驱 动 程序 .生成 工作 线程 等 。EAL 在 用 户 态 空间 的 初 
台 化 过 程 如 图 22 -37 所 示 。 


主帅 数 main() 


rte_ es al _InitO) 


rte_eal_memory_init() 
rte_eal_bgs_init() 
rte_eal_poi_init() 


rte_eal_remote_lauch 
(per_bore_app_init) 


| rte_eal_mp_wait_ 


图 22-37 EAL 在 用 户 态 空间 的 初始 化 过 程 


> PMD 库 :提供 用 户 态 轮 询 和 处 理 融 亲 和 人 性 绑 定 功能 , 文 持 本 地 和 虚拟 网 卡 相 关机 人 制 。 
> Classify 库 ; 支持 精确 匹配 功能 、 最 长 匹配 功能 和 通配符 匹配 功能 ,提供 常用 包 处 理 的 
查 表 操 作 。 
> QoS 库 : 提 供 网 络 服务 质量 相关 的 基础 组 件 ,包括 限 速 机 制 等 。 
> 其 他 基础 功能 :DPDK 也 提供 了 硅 干 平台 特性 ,包括 : 
e 与 Linux Kernel Stack 建立 快速 通道 的 KNI( Kermel Network Interface ,内核 网 络 接 
口 ) ,通过 kni. ko 模块 将 数据 报 文 从 内 核 态 协议 栈 传 递 到 用 户 态 ,以 便 socket 接口 
对 报 文 进行 处 理 。 
。 为 构建 更 复杂 的 多 核 流 水 线 处 理 模型 而 提供 Packet Framework 和 DISTRIB 等 框架 
基础 组 件 。 例 如 Packet Framework 可 以 将 第 见 的 网 络 行为 拆 分 成 不 同 的 查 表 操 作 
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和 对 应 的 动作 ,并 将 其 聚合 抽象 为 右 干 pipeline 模块 。 
如 图 22 -38 所 示 是 基于 RSS 和 Flow Director 两 种 多 队列 机 制 的 DPDK 框架 。 在 一 个 2 
路 CPU 的 平台 中 ,每 个 CPU 具有 4 个 逻辑 核 ,其 中 核心 0 总 是 用 于 DPDK 框架 的 主线 程 (用 
于 管理 IO 工作 线程 ) , 且 CPU 中 的 4 个 核心 也 都 用 于 IO 工作 线程 ,包括 0 号 核心 (主线 
程 开 销 很 小 ,因此 0 号 核心 也 可 以 运行 VO 工作 线程 以 最 大 化 地 利用 计算 资源 ) 。 
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DPDK. 


大 页 尼 
页 机 制 


Buffer Manager 用 户 访 空间 
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图 22 一 38 支持 RSS 和 Flow Director 两 种 机 制 的 DPDK 框架 


22.2.1.4 基于 DPDK 框架 的 报 文 传输 
DPDK 框架 具有 两 种 报 文 转发 模型 .运行 至 终结 ( Run To Completion ,RTC ) 模型 和 流水 
线 (Pipeline) 模 型 。 
RTC 模型 针对 的 是 通用 型 线程 。 在 这 种 模型 中 ,一 个 线程 的 处 理 步 又 不 管 分 为 多 少 逻 
辑 阶 段 ,都 会 在 一 个 CPU 核 上 运行 且 运 行 到 生命 周期 结束 。RTC 模型 中 每 个 报 文 的 生命 周 
期 只 能 在 一 个 线程 中 出 现 , 每 个 物理 核 都 负责 处 理 整个 报 文 从 RX 到 TX 的 生命 周期 。 
Pipeline 模型 将 某 个 功能 拆 解 成 相互 独立 的 多 个 阶段 ,阶段 与 阶段 之 间 通 过 队列 传递 报 


Linux 内 楼 oe 
内 校 态 裤 间 
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文 , 承 像 工厂 流水 线 一 样 每 个 步骤 都 由 专门 的 阶段 负责 完成 ,例如 一 个 任务 中 的 计算 密集 型 
和 LO 密集 型 子 任务 就 可 以 分 为 两 个 步 又 /阶段 并 由 不 同 的 处 理 带 执行 。 当 然 ,能 够 这 样 拆 
分 的 前 提 条 件 是 两 个 阶段 可 以 独立 拆 解 ,阶段 之 间 没 有 数据 相关 性 。 一 般 来 说 ,对 于 网 络 数 
据 包 的 处 理 ,Pipeline 模型 的 效率 要 比 RTC 模型 高 很 多 。 

DPDK 中 的 Pipeline 模型 也 被 称 为 Packet Framework。 在 DPDK 框架 中 ,流水线 上 的 每 
一 个 模块 都 是 一 个 处 理 引 擎 ,只 处 理 特 定 的 事务 ,每 个 引擎 都 有 输入 和 输出 ,引擎 之 间 台 是 
通过 这 些 输入 和 输出 连接 起 来 的 。 

采用 Pipeline 模型 ,可 以 将 一 些 特定 的 步 又 “地 载 ”给 专用 的 起 厂 执 行 ,例如 FPGA。 通 
过 专用 便 件 芯片 实现 通用 “CPU + 软件 ”才能 实现 的 茶 些 步 又 ,其 效率 必然 要 高 很 多 ,让 最 专 
业 的 部 件 去 做 最 擅长 的 事 , 也 提高 了 计算 资源 的 利用 率 。 图 22 -39 中 将 RTC 模型 与 
Pipeline 模型 进行 了 对 比 。 
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22.2.2 SPDK 框 染 


在 云 存 储 和 存储 加 速 技术 高 速 发 展 的 时 代 , 提 升 存 储 效 率 和 性 能 已 成 为 数据 平面 IO 
加 速 的 必由之路 。 在 存储 软件 栈 体系 中 ,限制 存储 效率 和 性 能 的 因素 包括 磁盘 读 写 速度 . 磁 
盘 驱 动 运 行 效率 、 文 件 系统 效率 以 及 连接 通道 的 传输 效率 。 其 中 连接 通道 既 包 括 SCSI 接口 
控制 筑 .光纤 控制 项 等 DAS( Direct Access Storage, 直接 存 取 存储 ) 环境 下 的 传输 通路 ,也 包 
括 以 太 网 .光纤 通道 交换 机 等 NAS( Network Attached Storasge ,网 络 附 加 存储 ) 环境 下 的 传输 
通路 。 而 提升 存储 性 能 既 包 括 人 硬件 层面 的 扩容 提升 ,也 包括 软件 层面 的 优化 改进 。 
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由 于 存储 设备 等 倡 件 的 性 能 飞速 提升 , 相 较 而 言 存 储 软 件 栈 的 效能 提升 就 不 是 那么 尺 
如 人 意 了 ,因此 软件 方面 的 提升 就 成 了 当务之急 。 在 数据 平面 软件 栈 的 优化 和 提升 方面 
DPDK 已 经 迈 出 了 坚实 的 一 步 ,为 网 络 WO 加 速 做 出 了 很 好 的 榜样 ,而 SPDK 可 以 站 在 
DPDK 的 肩膀 上 ,利用 DPDK 的 既 有 成 采 在 存储 数据 平面 IO 加 速 技术 上 开辟 新 的 可 能 。 

SPDK , 即 Storage _ Performance Development Kit 和 
(存储 性 能 开发 工具 包 ) ,是 Intel 提供 的 一 套 专门 
用 于 IA(Ttanium Architecture , 安 腾 架 构 ) 平 台 的 高 
性 能 存储 方案 ,也 是 针对 基于 NVMe SSD 作为 后 端 
存储 媒介 的 应 用 软件 加 速 库 。 这 里 的 高 性 能 是 指 
充分 发 挥 IA 平台 的 硬件 加 速 特性 (如 Intel IOAT， 图 22- 40 SPDK 与 NVMe SSD 的 关系 
英特尔 IO 加 速 技 术 ) 和 软件 优化 后 的 性 能 增 量 以 
提升 存储 的 I/O 效率 。 

SPDK 的 关键 技术 除了 基于 SSD 和 IOAT 的 一 系列 硬件 加 速 特性 外 ,软件 层面 则 包括 运 
行 于 用 户 态 (UIO 机 制 ) 轮 询 机 制 (PMD 机 制 ) 缩短 驱动 软件 栈 族 度 ( 缩 短 WO 路 径 ) .无 锁 
化 机 制 等 ,可 见 SPDK 确实 是 基于 DPDK 一 系列 优化 成 果 做 出 的 改进 。 

在 介绍 SPDK 框架 之 前 ,我们 先 来 介绍 一 些 存储 领域 的 预备 知识 。 

22.2.2.1 预备 知识 

1. RDMA 技术 

RDMA( Remote Direct Memory Access, 远程 百 接 内 存 存 取 ) 是 DMA 机 制 的 远程 实现 版 
本 。 基 作用 是 使 计算 机 可 以 器 系统 和 存 取 其 他 计算 机 的 内 存 而 无 需 消 耗 处 理 硕 计算 资源 和 时 
则 片 ,当然 也 无 需 操 作 系 统 的 参与 (这 是 因为 操作 系统 参与 会 消耗 处 理 硕 时 间 上 请 和 计算 资 
源 ) 。 简 单 地 说 ,RDMA 技术 是 发 生 在 跨 系统 网 卡 与 内 存 之 间 的 事情 。 

从 图 22 -41 可 以 看 出 ,基于 协议 栈 的 数据 存 取 ( 左 上 方 ) 既 要 跨越 用 户 态 与 内 核 态 空 
间 ,也 要 经 过 网 络 协议 栈 驱 动 的 层 层 处 理 ,而 RDMA 技术 (右上 方 ) 则 明显 具有 以 下 优势 ; 

> Kernel-Bypass: 在 RDMA 中 应 用 程序 直接 操作 设备 接口 ,不 需要 通过 系统 调用 在 用 

户 态 与 内 核 态 之 间 来 回 切换 ,也 不 经 过 内 核 态 协议 栈 ( 内 核 劳 路 ) ,因此 也 束 省 却 了 上 
下 文 切 换 的 开销 。 

> Zero-Copy :由 于 网 卡 可 以 直接 与 应 用 程序 的 内 存 互相 传输 数据 ,因此 不 需要 在 网 络 

协议 栈 各 层 之 则 拷贝 数据 (等 捞 贝 ) ,这 也 缩短 了 数据 流 的 处 理 路 径 。 
> None-CPU :数据 传输 过 程 中 ,除了 最 开始 的 传输 协商 流程 需要 CPU 的 参与 外 ,数据 
的 拷贝 完全 由 网 卡 而 不 是 由 CPU 搞定 ,数据 包 的 收发 也 无 需 中 断 服 务 例 程 的 啊 应 。 

> 基于 消息 的 事务 :在 RDMA 中 数据 是 被 作为 消息 处 理 的 ,这 与 一 般 的 基于 流 的 方式 有 
很 大 不 同 ,这 意味 者 应 用 程序 不 需要 将 数据 流 分 隔 成 不 同 的 消 且 和 事务 。 

> 分 散 / 收 集 条 目 支 持 :RDMA 文 持 读 取 多 个 内 存 缓 冲 区 的 数据 并 将 其 合并 为 一 个 请 
县 ,也 文 持 获取 一 个 消息 后 写 人 多 个 内 存 缓冲 区 。 
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图 22-41 基于 协议 栈 驱 动 和 RDMA 的 远程 数据 存 取 


同时 ,应 用 进程 只 需要 在 本 地 网 卡 中 注册 对 应 的 内 存 缓冲 区 就 可 以 使 用 RDMA 了 ,因此 
使 用 非常 方便 也 是 RDMA 的 一 大 优势 。 

RDMA 分 为 软件 和 硬件 两 部 分 ,软件 部 分 包括 了 RDMA 服务 回应 用 进程 发 布 的 API 接 
口 ,这 些 接口 被 称 为 Verbs( 中 文 解释 比较 隐 汲 ) 。 应 用 程序 在 使 用 RDMA 时 需要 将 IO 接 
口 修改 为 Verbs 接口 ,这 是 由 于 RDMA 不 再 需要 IO 管理 器 文件 系统 .磁盘 驱动 等 一 系列 
操作 系统 软件 栈 了 ,因此 与 操作 系统 之 间 原 有 的 接口 必须 改变 。 

RDMA 的 硬件 部 分 是 指 集成 了 RDMA 功能 的 网 卡 适 配器 ,这 种 适配器 文 持 三 种 通信 方 
式 :InfiniBand iWARP 和 RocCE ,它们 也 是 RDMA 之 下 的 协议 ,为 RDMA 提供 了 传输 支持 和 
链 路 实现 。 其 中 InfiniBand 是 RDMA 原生 支持 的 ,iWARP 是 基于 TCP/IP 协议 的 ,RoCE 则 是 
基于 以 太 网 的 。 表 22 -4 中 比较 了 这 三 种 通信 方式 ,图 22 -42 则 拉 述 了 文 持 这 三 种 方式 的 
RDMA 架构 。 
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表 22-4 RDMA 的 三 种 通信 方式 的 比较 ( 表 中 内 容 来 自 CSDN ) 


标准 组 织 IBTA IETF IBTA 


Mellanox CHelsio Mellanoix-40 Gbps 
40 Gbps 10 Gbps Emulex-10/40 Gbps 


应 用 程序 需要 
修改 为 Verbs 挡 口 


| Verbse RDMA API 接 口 


主机 适 配 卡 
RDMA 服务 (集成 RDMA 功 能 ) 


InfiniBand 


三 种 承载 网 络 
以 太 网 


图 22 一 42 三 种 通信 方式 的 RDMA 架构 


关于 RDMA 的 软件 部 分 ,除了 Verbs 接口 ,其 实 还 允许 以 为 一 种 方式 与 应 用 进程 交互 : 
OFED 协议 接口 ,支持 OFED 的 RDMA 架构 如 图 22 -43 所 示 。 

> 应 用 程序 和 具有 RDMA 引擎 的 以 太 网 卡 (RDMA-aware Network Interface Controller， 
RNIC) 之 间 的 传输 接口 层 被 定义 为 Verbs。 

> Verbs 接口 是 由 OFA( Open Fabric Alliance ) 发 布 的 。Verbs 掩盖 了 底层 人 硬件 差 异 ,无论 

是 InfiniBand 还 是 以 太 网 都 可 作为 Verbs 的 后 闹 实 现 。 

> RDMA 的 基本 操作 接口 分 为 两 类 ;内 存 Verbs( Memory Verbs) 和 消息 Verbs( Messaging 
Verbs ) ,每 一 个 Verbs 可 以 理解 为 一 个 图 数 。 

RDMA 软件 部 分 还 包括 一 个 RDMA 协议 栈 ,这 个 协议 栈 是 由 OpenFabric 联盟 ( OFA) 
发 布 的 ,被 称 为 OFED (Open Fabric Enterprise Distribution ) 协议 栈 , 并 分 为 Linux 和 
Windows 两 个 版 本 ,可 以 无 缝 兼容 已 有 应 用 ,并 文 持 多 种 RDMA 传输 协议 。 

> OFED 是 一 组 开源 软件 驱动 .内核 核心 代码 .中间 件 和 文 持 InfiniBand Fabric 的 用 户 级 
接口 程序 。 

> OFED 协议 栈 癌 上 提供 北 回 协 议 ULP( Upper Layer Protocol ,高 层 协议 ) ,上 层 应 用 程 厅 
不 需要 直接 和 Verbs API 对 接 ,而 是 借助 于 ULP 直接 与 RDMA 对 接 ; 向 下 则 提供 了 
RNIC 实现 RDMA 和 LLP( Lower Layer Protocol ,低层 协议 ) 等 机 制 的 消息 队列 服务 。 

> OFED 协议 栈 的 北 回 协 议 具有 更 好 的 适 配 性 和 兼容 性 ,一 般 的 应 用 进程 无 需 修 改 接口 


就 可 以 直接 运行 在 OFED 协议 栈 上 。 
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OFED 可 应 用 于 Linux 和 Windows, 包括 各 种 诊断 和 性 能 工具 ,这 些 工 具 可 用 于 监视 
InfiniBand 网 络 的 运行 情况 ,例如 传输 讲 宽 和 Fabric 内 部 的 拥塞 情况 。 
OFED 可 也 是 一 个 单一 的 软件 栈 , 包 括 驱 动 、 中 间 件 、 用 户 接 口 以 及 一 系列 的 标准 协议 
(例如 IPoIB .SDP .SRP .iSER RDS DAPL 等 协议 ) ,并 文 持 北 回 MPI、Lustre/NFS over RDMA 
等 协议 ,也 提供 了 Verbs 编程 接口 。 
RDMA 的 通信 是 采用 消息 机 制 的 ,消息 服务 建立 在 通信 双方 本 地 端 和 远程 端 应 用 之 间 
的 VO Channel 连接 之 上 ,每 次 应 用 进程 需要 通信 时 就 创建 一 条 Channel 连接 通道 ,每 条 
Channel 的 首尾 两 端 各 是 一 个 队列 对 ( Queue Pair ,OP ) ,每 一 病 的 QP 由 一 个 SO( Send Queue, 
发 送 队 列 ) 和 一 个 RO( Recelive Queue, 接收 队列 ) 构 成 ,这 些 队 列 中 管理 痢 各 种 类 型 的 用 于 
发 送 数 据 的 消息 。 这 些 QP 都 被 映射 到 应 用 进程 的 虚拟 地 址 空间 中 ,可 以 像 访 问 虚 拟 地 址 一 
样 访问 这 些 QP, 也 就 相当 于 直接 访问 了 RNIC( RDMA 在 NIC 上 的 实现 ) 网 卡 。RDMA 除了 
和 RQ 外 还 有 一 个 完成 队列 ( Complete Queue,CQ) ,用 于 通知 上 层 应 用 进程 QP 中 的 消息 
经 被 处 理 完毕 。 一 个 CQ 可 以 与 多 个 SQ 和 RQ 关联 。 
RDMA 中 对 数据 的 操作 分 为 单 边 操作 和 双边 操作 两 种 方式 。 
> 单 边 操作 ;只 宕 要 本 地 端 明 确信 息 的 源 地 址 和 目的 地 址 就 可 以 完成 收发 操作 , 远 端 不 
需要 感知 本 次 通信 。 单 边 操作 包括 READ 和 WRITE 两 种 ,多 用 于 RDMA 数据 报 文 ， 
都 是 通过 RDMA 在 RNIC 与 应 用 进程 缓冲 区 之 间 完 成 的 ,还 端 RNIC 会 将 完成 事件 封 
装 为 消息 返回 本 地 病 。 

> 双边 操作 :需要 本 地 奖 和 远 端 的 应 用 层 参 与 才能 完成 收发 操作 ,包括 SEND 和 
RECEIVE 两 种 ,多 用 于 RDMA 连接 控制 类 报 文 。 

应 用 进程 使 用 RDMA 是 非常 简单 的 ,只 需要 注册 内 存 (Memory Resistration ,MR ) 即 可 。 
但 在 传输 过 程 中 应 用 程序 不 能 修改 注册 内 存 的 属性 ,操作 系统 也 不 能 对 数据 所 在 的 内 存 执 
行 页 面倒 换 操 作 ( 非 分 页 的 党 驻 内 存 ) ,也 驶 是 说 必须 保持 虚拟 地 址 和 物理 内 存 的 映射 天 系 
下 到， 

2. InfiniBand 

InfiniBand( 简称 1B) 是 一 种 网 络 通 信 协 议 ,提供 了 基于 交换 的 架构 ,主要 应 用 于 存储 领 
域 的 远程 内 存 存 取 和 计算 机 系统 之 间 的 互联 ,也 是 RDMA 的 支撑 技术 之 一 ,其 组 网 可 参考 
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图 22 -44。 使 用 IB 网 络 时 需要 原生 硬件 支持 :需要 配置 支持 IB 协议 的 交换 机 (IBA 交换 
佑 ) ,主机 网 卡 也 需要 支持 IB 协议 。 
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22-44 ”支持 IB 协议 的 存储 系统 组 网 (图片 来 自 CSDN) 


InfiniBand 提供 了 以 信用 为 基础 的 流 控制 通信 手段 。 所 谓 以 信用 为 基础 ,就 是 发 送 闪 节 
点 不 给 接收 闯 发 送 超出 广播 事先 约定 大 小 的 数据 包 ,这 被 称 为 “还 守 信用 ”。 既 然 这 么 守信 ， 

数据 包 自 然 也 很 少 会 丢失 。 同 时 ,IB 也 是 以 通道 (Channel ) 为 基础 的 双向 串 行 式 传输 协议 ， 
通信 时 在 交换 节点 之 间 创 建 一 条 私有 的 、 受 保护 的 通道 

IB 的 通信 和 具有 以 下 特点 : 

> 基于 RDMA 机 制 的 通信 无 需 CPU 参与 ,由 InfiniBand 适配器 来 管理 和 执行 收发 操作 。 

> InfiniBand 会 确认 接收 请 绥 存 是 否 具 有 足够 空间 ,否则 不 会 传送 数据 。 

> 接收 端 在 数据 传送 完毕 后 会 返回 通知 报 文 以 通知 发 送 端 ,并 标识 发 送 端 缓 存 空间 的 


可 用 性 。 

> InfiniBand 适 配 需 的 一 端 通 过 PCI-E 接口 连接 到 CPU 上 , 另 一 端 则 通过 InfiniBand 网 
口 连接 到 InfiniBand 网 络 上 。 

> InfiniBand 串 行 链 路 可 以 在 不 同 的 信 令 速率 下 运行 ,也 文 持 拥 绑 在 一 起 实现 更 高 的 厨 
叶 量 。 


InfiniBand 协议 之 上 可 以 承载 更 上 层 的 应 用 协议 ,包括 SDP、 SRP iSER RDS IPoIB 和 
uDAPL 等 ,这 些 应 用 协议 同时 也 是 RDMA 之 上 的 协议 。 

> SDP.: Sockets Direct Protocol, 文 持 用 户 既 有 的 基于 TCP/AIP 协议 的 程序 运行 在 
InfiniBand 高 速 网 络 之 上 。 

> SRP :SCSI RDMA Protocol ,在 InfiniBand 协议 中 将 SCSI 命令 封包 ,允许 SCSI 命令 通过 
RDMA 在 不 同 的 系统 之 间 传 输 。 

> iSER .iSCSI Extensions for RDMA ,类 似 于 SRP 协议 ,是 IJB SAN 的 一 种 应 用 通信 协议 ， 
将 iSCSI 协议 的 命令 和 数据 通过 RDMA 方式 运行 于 Infiniband 网 络 上 。 目 前 iSER 作 
为 iSCSI RDMA 的 存储 协议 已 被 IETF 标准化。 

RDS:Reliable Datagram Sockets ,是 Oracle 发 布 的 运行 在 InfiniBand 之 上 的 IPC( 进 程 
间 通 信 ) 的 协议 ,与 UDP 类 似 , 用 于 在 InfiniBand 上 使 用 socket 机 制 收 发 数据 。 

> IPoIB ;IP-over-IB ,为 了 实现 InfiniBand 网 络 与 TCP/IP 网 络 兼容 而 制定 的 协议 。IPoIB 
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是 基于 TCP/IP 的 协议 ,对 于 应 用 进程 是 透明 的 , 原 有 的 使 用 TCP/IP 协议 栈 的 应 用 程 
订 不 需要 任何 修改 就 能 使 用 IPoIB。 
> uDAPL :User Direct Access Programming Library ,这 是 一 种 允许 用 户 程 序 通过 直接 访问 
动态 库 来 实现 RDMA 通信 的 方式 。 
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便 件 |InfiniBand 主 通道 适 配 府 以 太 网 网 卡 
图 22 一 45 基于 InfiniBand 和 Ethernet 两 种 方式 的 软件 栈 


InfiniBand 软件 栈 可 以 分 为 用 户 态 和 内 核 态 两 部 分 ,图 22 -45 所 示 是 基于 两 种 方式 的 
软件 栈 。 用 户 态 部 分 包括 基于 TCP《 了 P 的 应 用 程序 .基于 SCSI 的 应 用 程序 、 基 于 iSCSI 的 应 
用 程序 .基于 socket 的 应 用 程序 和 基于 文件 系统 的 应 用 程序 。 内 核 态 部 分 则 包括 HCA( Host 
Channel Adapter) 驱动 程序 .InfiniBand 核心 模块 和 上 层 协 议 , 其 中 InfiniBand 核心 模块 最 主 
要 的 部 分 就 是 InfiniBand 设备 的 内 核 级 中 间 层 ,该 中 间 层 允许 访问 多 个 HCA NIC 并 提供 一 
组 共享 服务 ,这些 服 务 包 括 : 

> 通信 管理 (CM) :提供 了 人 允许 客户 端 建立 连接 所 需 的 服务 。 

> 子 网 管理 员 客 户 端 (SA Clinet) :提供 了 人 允许 客户 端 与 子 网 管理 员 通 信 的 功能 。SA 包 

含 建立 连接 所 需 的 重要 信息 ,如 路 径 记 录 等 。 

> 子 网 管理 器 代理 (SMA ) :用 于 处 理子 网 管理 数据 包 , 允许 子 网 管理 天 在 每 个 主机 上 

查询 和 配置 设备 。 
> 性 能 管理 代理 (PMA ) :用 于 处 理 检 索 硬 件 性 能 计数 融 的 管理 数据 包 。 
> 管理 数据 报 服务 (MAD Services ) :提供 了 一 组 允许 客户 端 访问 特殊 的 InfiniBand 队 
列 对 ( QP) 的 接口 。 

> 通用 服务 接口 (GSI) :允许 客户 问 在 特殊 的 Admin QP( QP1) 上 收发 管理 数据 包 。 

> 队列 对 重 定向 高 层 管 理 协议 (QP Redirection ) :将 对 特殊 QP1 的 访问 重 定 同 到 专用 
QP, 这 也 是 带宽 密集 型 高 级 管理 协议 所 需要 的 。 

> 子 网 管理 接口 ( SMI) :允许 客户 问 在 特殊 的 QP0 上 收发 数据 包 ,该 接口 一 般 被 子 网 管 

> Verbs: 对 中 间 层 发 布 由 HCA 驱动 程序 提供 的 Verbs 接口 。InfiniBand 体系 结构 规范 
定义 了 Verbs ,Verbs 是 必须 提供 的 图 数 的 语义 描述 ,中间 层 将 这 些 语义 描述 转换 为 一 
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组 Linux 内 核 API。 
InfiniBand 的 软件 架构 如 图 22 一 46 所 示 。 
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22-46 InfiniBand 软件 架构 


内 核 级 中 间 层 还 负责 在 进程 异 稼 终止 或 客户 端 关 闭 后 ,对 没有 释放 的 已 分 配 资源 进行 
跟踪 .引用 计数 和 清理 。 

InfiniBand 堆栈 的 最 低层 由 HCA 驱动 程序 组 成 ,每 个 HCA 设备 都 需要 一 个 特定 于 HCA 
的 驱动 程序 ,该 驱动 程序 注册 在 中 间 层 ,并 提供 InfiniBand Verbs。 

3. RoCEk 

RoCE 即 RDMA 融合 以 太 网 (RDMA over Converged Ethernet ) ,是 一 种 基于 以 太 网 的 
RDMA 通信 协议 ,可 在 没有 原生 人 硬件 支持 的 情况 下 使 用 。RoCE 文 持 在 标准 以 太 网 上 运行 
RDMA 的 各 种 操作 ,当然 这 要 求 网卡 必 须 支持 RoCE 机 制 。 与 基于 TCP/AIP 的 传统 通信 方式 
对 比 ,RDMA 技术 劳 路 了 内 核 态 的 网 络 协议 栈 , 具 有 无 可 比拟 的 性 能 优势 ,并 且 RoCE 可 以 
使 RDMA 协议 具有 更 强 的 普 适 性 和 通用 性 。 基 于 TCP/IP 和 RDMA 两 种 方式 的 远程 通信 如 
图 22 -47 所 示 。 
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22-47 基于 TCP/IP 和 RDMA 两 种 方式 的 远程 通信 
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为 了 实现 RDMA ,RoCE 采用 标准 以 太 网 头 封 装 IJB 协议 ,因此 外 层 网 络 头 是 以 太 网 头 ， 
内 层 网 络 头 是 InfiniBand 协议 头 ,最 里 面 则 是 IB 协议 的 报 文 内 容 。 这 也 意味 大 RoCE 报 文 
只 能 在 二 层 网 络 上 运行 ,无 法 通过 三 层 设 备 的 解析 。 

RoCEv2 是 针对 RoCE 的 改进 版 本 ,具有 更 好 的 适应 性 。RoCE 基于 二 层 的 Ethernet 协 
议 , 而 RoCEv2 则 是 基于 四 层 的 UDP 协议 ,因此 可 以 跨 二 层 组 网 ,如 图 22 -48 所 示 。RoCEv2 
与 RoCE 的 协议 栈 对 比如 图 22 -49 所 示 。 
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22 一 49 ”RoCE 与 RoCEv2 的 协议 栈 对 比 


4. iWARP 

iWARP 即 互 联网 广 域 RDMA 协议 (Internet Wide Area RDMA Protocol ) ,这 是 一 种 基于 
TCP/SCTP 的 RDMA 通信 协议 ,可 在 没有 原生 便 件 支持 的 情况 下 使 用 。iWARP 可 以 基于 TCP/ 
PP 协议 执行 RDMA 的 各 种 操作 ( RDMA over TCP/IP) ,由 于 览 越 了 二 层 协 以 ,因此 也 可 以 在 标 
准 以 太 网 基础 上 使 用 RDMA 协议 。 不 过 在 开启 CPU 缉 载 (例如 TCP 负载 减轻 引擎 ,TCP Offlod 
FEngine,TOE ) 功能 的 前 提 下 ,iWARP 仍然 要 求 网 卡 文 持 iWARP( 否 则 仍然 需要 软件 实现 
iWARP 的 功能 堆栈 ) ,因而 失去 了 人 性 能 优势 。 软 件 方式 与 TOE 方式 的 比较 参见 图 22 - 50。 


应 用 层 处 理 
软件 

操作 系统 核心 
硬件 


数据 链 路 层 


22 一 50 软件 方式 与 TOE 方式 对 比 491 


应 用 软件 开发 协议 栈 Co 

5. 协议 普 适 性 

从 InfiniBand .RoCE .RoCEv2 和 iWARP 这 4 种 协议 栈 的 对 比 来 看 (如 图 22 -5S1 所 示 ) ， 
后 三 者 都 是 基于 以 太 网 协议 的 ,并 且 iWARP 和 RoCEv2 是 基于 三 层 的 卫 协 议 以 及 四 层 的 传 
输 层 协议 (TCP、 SCTP UDP) 的 ,因此 后 两 者 具有 更 好 的 普 适 性 。 在 四 层 协议 的 协议 体内 部 ， 
RoCE 和 RoCEv2 封装 的 是 IB 协议 ,iWARP 封装 的 则 是 iWARP 协议 。 


RDMA 应 用 进程 
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传输 协议 


UDP 


InfiniBand Ethernet 
链 路 层 链 路 层 
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图 22 一 51 InfiniBand .RoCE RoCEv2 与 iWARP 协议 栈 对 比 


6. HDD 与 SSD 

HDD 即 机 械 人 硬盘 ( Hard Disk Drive) , 读 写 时 一 次 只 能 恋 取 一 块 数据 ,这 是 因为 读 写 时 必 
须 进行 旋转 以 定位 到 第 一 个 数据 块 的 正确 物理 位 置 ,然后 再 次 旋转 移动 到 第 二 个 数据 块 的 
正确 位 置 ,以 此 类 推 。 因 此 HDD 对 数据 的 读 写 效 率 不 高 。 

SSD 即 固态 人 硬盘 ( Solid State Drive) ,是 一 种 以 半导体 闪存 (NAND Flash ) 作为 介质 的 存 
储 设备 。 闪 存 介质 中 保存 数据 的 基本 单元 称 为 Cell ,每 个 Cell 通过 注入 和 释放 电子 来 记录 
数据 。 由 于 SSD 以 半导体 存储 数据 ,是 纯 电 子 电路 实现 的 ,并 不 需要 移动 磁头 ,因此 可 以 同 
时 从 许多 不 同 的 位 置 谈 取 数据 ,具有 很 高 的 谈 与 性 有 能。 同时 ,SSD 控制 融通 过 运行 复杂 的 
FTL( Flash Translation Layer, 闪 存 转 换 层 ) 处 理 逻 辑 将 逻辑 块 谈 写 上 映射 成 NAND Flash 读 写 。 
SSD 的 人 硬件 结构 如 图 22 -52 所 示 。 

不 过 NAND Flash 天 生 就 有 电 谷 逃逸 的 问题 ,这 个 问题 会 导致 存储 介质 上 的 数据 发 生变 
化 ,这 叫 作 比特 翻转 ,因此 NAND Flash 本 号 是 不 可 徘 的 。 为 了 在 不 可 徘 的 介质 中 建立 可 乱 存 
储 ,SSD 采用 了 ECC( Error Checking and Correction ,差错 检测 和 修正 ) 硬件 单元 来 解决 比特 翻转 
问题 , 即 每 次 存储 数据 的 时 候 ,ECC 人 硬件 单元 会 为 存储 的 数据 生成 ECC 校 验 码 ,每 当 读 取 数 据 
的 时 候 , 便 件 单元 根据 校 验 公 恢 复 被 破坏 的 比特 数据 。ECC 硬件 单元 都 是 集成 在 SSD 控制 硕 
里 面 的 ,是 控制 各 的 一 部 分 。 不 过 , 当 比 特 错 误 率 达到 一 定 程 度 之 后 ,ECC 机 制 会 失效 。 

表 22 -5 中 列 出 了 SSD 与 HDD 的 性 能 对 比 。 
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SSD 


Firmware 


GC Meta 
Nanager Manager Erleh 
!' | Channel 


' | Controller 
NVMe 
| 


图 22 一 52” SSD 的 硬件 结构 


表 22 一 5 ”SSD 与 HDD 的 性 能 对 比 


作为 SSD 存储 介质 的 标 配 ,3D NAND Flash 主要 通过 以 下 两 种 方式 增加 存储 密度 
> 通过 3D 堆 二 的 方式 增加 NAND Flash 的 存储 密度 。 

> 通过 增加 单 Cell 比特 效 来 提升 NAND Flash 的 存储 密度 。 

2D NAND Flash 与 3D NAND Flash 的 对 比如 图 22 -53 所 示 。 


2D NAND Flash 3D NAND Flash 
图 22 一 53 2D NAND Flash 与 3D NAND Flash 的 对 比 


当前 ,一些 新 的 非 易 失 性 内 存 技术 也 开始 出 现 , 例 如 Intel 已 经 推出 了 AEP 内 存 存 储 介 
质 。 可 以 预计 ,未 来 将 会 是 非 多 失 性 内 存 和 闪存 共存 的 半导体 存储 时 代 。 

7. NVMe 

NVMe 即 非 易 失 性 内 存 主 机 控制 器 接口 规范 (Non-Volatile Memory Express) ,这 是 一 种 专 
门 用 于 加 速 SSD 运行 的 协议 , 面 四 的 是 新 型 存储 介质 。NVMe 规定 了 操作 系统 与 NVM( 非 
易 失 性 存储 ) 子 系统 之 间 的 通信 接口 ,也 定义 了 一 套 与 AHCI( Advanced Host Controller 
Interface ,高 级 主机 控制 兹 接口 ) 规 范 不 同 的 指令 集 和 功能 集 。 

使 用 NVMe 与 存储 系统 中 的 SSD 通信 ,可 提高 每 个 处 理 器 乃至 整个 存储 系统 的 效率 与 
性 能 ,将 存储 设备 拉 近 到 CPU 局 部 总 线 的 距离 ,因此 具有 很 高 的 1/O0 效率 。 
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之 所 以 要 设计 这 样 一 套 SSD 的 通信 协议 ,是 由 于 为 机 械 磁 盘 而 设计 的 存储 接口 和 总 线 
结构 已 无 法 跟 上 SSD 速度 提升 的 脚步 了 ,必须 设计 一 套 新 的 接口 来 满足 SSD 的 速度 提升 。 
NVMe 的 核心 是 定义 了 通过 PCI-E 总 线 将 SSD 存储 连接 到 服务 器 接口 上 的 连接 规范 ,因此 
当前 只 有 SSD 是 运行 在 NVMe 之 上 的 ,而 且 NVMe 也 只 是 针对 PCI-E 接口 的 SSD (NVMe 
over PCI-E) 。 不 过 从 NVMe 设计 的 本 意 来 说 ,这 是 为 非 兄 失 性 存储 融 ( 闪存 等 ) 设 计 的 接口 
规范 ,并 不 仅仅 局 限于 SSD。 而 且 NVMe-oF (NVMe over Fabric) 规范 也 将 对 PCI-E 接口 的 支 
持 拓展 到 了 TCP/IP。 

NVMe 控制 大 通过 两 种 方式 提高 SSD 的 IO 性 能 : 

> 使 用 PCI-E 总 线 连接 SSD 和 系统 CPU , 这 种 方式 省 略 了 SATA 方式 的 一 些 步骤 。 不 

过 SATA SSD 已 经 可 以 满足 大 多 数 用 户 的 需要 了 ,并 且 比 NVMe SSD 便宜 很 多 。 

> 大 规模 多 队列 地 实现 IO 并 行 性 。 

。 传统 的 SATA 连接 方式 只 支持 一 个 队列 ,每 个 队列 一 次 只 能 接收 32 条 数据 (队列 
深度 为 32 ) 。 

。 NVMe 连接 方式 最 多 支持 64 K 个 队列 ,每 个 队列 一 次 可 以 接收 64 K 条 数据 (队列 
深度 为 64 K,Admin 队列 深度 则 为 4 K) ,因此 理论 上 最 大 可 文 持 64 Kx64 K 条 数 
据 的 并 发 。 

NVMe 有 两 种 命令 ,一 种 被 称 为 Admin Command ,用 于 存储 主机 管理 和 SSD 控制 ; 另 一 
种 就 是 IO Command ,用 于 主机 和 SSD 之 间 数 据 的 传输 。 同 时 ,NVMe 还 有 三 种 命令 队列 : 
SQ .CQ 和 DB, 它们 在 存储 系统 中 的 位 置 如 图 22 -54 所 示 。 


CPU 
， 在 子 系 缠 
根 混合 体 门 存 子 系统 
| | | | | | 
PCle | PC]le | PCle SO 
[| | [| | 


A 
Endpomnt Controller 
ks op DB 


| .J | 
PCle Legacy Non—Yolatile 
Endpoint | | Endpoint || Endpont Memory(NVM) 
NVMe 子 系统 nm 
1] .Controller 
2.NVNM atorage ] 国 国 国 本 加 图 
3.Intortaco betwoon \| | | | i/ 
thom 下 | | | 4 | 


22 一 54 ”SQ .CQ .DB 在 存储 系统 中 的 位 置 


> SQ :Submission Queue( 提交 队列 ) ,位 于 存储 主机 的 内 存 中 , 主机 要 发 送 命令 时 先 将 命 
> CQ :Completion Queue( 完成 队列 ) ,位 于 存储 主机 的 内 存 中 ,命令 执行 完成 后 ,SSD 将 
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执行 结果 和 完成 状态 写 人 CQ 中 ,并 通知 主机 到 CQ 中 获取 完成 结果 。CQ 与 SQ 是 成 
对 出 现 的 ,可 以 一 对 一 ,也 可 以 一 对 多 。 
> DB :Doorbell Register( 门铃 寄存 融 ) ,位 于 SSD 控制 锅 内 部 ,是 专用 寄存 天 ,用 于 存储 
主机 通知 SSD 到 SQ 中 取 指 令 。 
从 上 述 分 类 可 以 看 出 ,根据 命令 的 不 同 队 列 可 分 为 Admin SQ .Admin CQ IO SQ 和 IO 
CQ 4 种 :Admin SQ 和 对 应 的 Admin CQ 用 来 管理 和 控制 NVMe 控制 各 ,例如 创建 和 删除 IO 
队列 ,终止 命令 等 ;LO SQ 和 对 应 的 VO CQ 则 用 来 处 理 IO 命令 。 
系统 在 创建 SQ 前 必须 先 创 建 对 应 的 CQ ,执行 删除 操作 时 也 要 先 删除 SQ 再 删除 CQ。 
为 了 最 大 限度 地 减少 加 锁 开 销 和 多 核 间 数据 缓存 的 切换 ,一 般 会 将 一 对 队列 绑 定 到 一 个 处 
理 器 核 上 。 也 就 是 说 ,Admin SQ 和 Admin CQ 是 一 对 一 的 ,它们 绑 定 在 0 号 核 上 ;LO SQ 和 
LO CQ 可 以 一 对 一 也 可 以 多 对 一 , 绑 定 在 其 他 几 个 核 上 ,如 图 22 -55 所 示 。 


Controller | ， 
Management Core 0 Core 1 (COoren 
[ODO 


Adrmin Adimin LO LO LO [IO) LO LO 
提交 队列 。 完成 队列 提交 队列 完成 队列 提交 队列 。 提交 队列 完成 队列 提交 队列 “完成 队列 


NVMe 控制 器 


图 22-5SS 存储 主机 、NVMe 控制 器 与 队列 之 间 的 绑 定 关系 


除了 上 述 提 到 的 基于 成 对 的 SQ 和 C0 的 机 制 之 外 ,NVMe 还 具有 以 下 特性 : 
> 支持 多 个 命名 空间 。 一 定量 的 NVMe 的 集合 可 被 格式 化 为 多 个 逻辑 块 ,这 些 逻 辑 块 
称 为 命名 空间 。 一 个 NVMe 控制 器 可 以 支持 多 个 有 不 同 I 有 D 的 命名 空间 。 

> 支持 命名 空间 共享 。 多 个 主机 可 以 通过 不 同 的 NVMe 控制 需 接 人 同一 个 命名 空间 。 

> 支持 多 路 径 0O , 即 一 个 主机 和 一 个 命名 空间 之 间 存 在 多 条 完全 独立 的 PCI-E 路 径 。 

> 与 传统 SCSI 体系 相 比较 , 主机 一 侧 的 NVMe 子 系统 减少 了 LO 调度 层 和 命令 层 , 使 

得 1/O 路 径 更 短 。 
> 由 于 NVMe 重新 设计 定义 了 WO 队列 及 相应 的 仲裁 机 制 , 相 较 于 传统 的 SCSI 体系 软 
件 栈 减 少 了 实现 排队 功能 的 通用 LO 的 调度 层 。 

NVMe 在 数据 传输 过 程 中 的 位 置 如 图 22 -56 所 示 。 

相 较 于 NVMe, 原 有 的 AHCI 规范 只 定义 了 一 个 交互 队列 ,那么 主机 与 HDD 之 间 的 数据 
交互 只 能 通过 这 一 个 队列 通信 ,即使 是 多 核 处 理 需 场景 下 也 只 能 通过 这 一 个 队列 。 在 磁盘 
存储 时 代 , 由 于 磁盘 是 慢 速 设备 ,所 以 一 个 队列 也 就 够 用 了 。 但 在 SSD 场景 下 ,其 半导体 存 
储 介 质 具 有 很 高 的 性 能 ,传统 的 AHCI 规范 的 单 队列 模式 已 不 再 适用 。 
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应 用 层 


传 炳 层 


内 部 互联 层 


图 22-56 NVMe 在 数据 传输 过 程 中 的 位 置 


22.2.2.2 SPDK 框架 结构 
1. SPDK 的 设计 特点 
SPDK 本 质 上 是 利用 了 软 硬 件 加 速 特性 实现 的 存储 框架 ,例如 TOE 和 DPDK 框架 的 某 
些 模块 等 ,是 一 种 用 于 以 NVMe SSD 为 后 闪存 储 媒 介 的 应 用 软件 加 速 库 , 因 此 也 可 以 将 
SPDK 看 作 NVMe 驱动 。SPDK 在 以 下 方面 具有 高 性 能 特点 . 

1 ) 线程 与 处 理 器 核 的 管理 

> 基于 UIO 机 制 ,不 需要 进行 用 户 态 到 内 核 态 的 切换 ,从 而 避免 了 状态 转换 的 开销 。 

> 依然 采用 轮 询 机 制 处 理 IO 操作 (但 工作 线程 会 在 0 工作 不 饱和 的 情况 下 占 满 
CPU 使 用 率 ) , 相 比 于 传统 的 基于 中 断 框 架 的 方式 ,这 种 方式 在 处 理 大 并 发 量 IO 时 

> SPDK 依然 采用 了 处 理 器 亲 和 性 机 制 ,将 工作 线程 与 CPU 核 绪 定 。 线 程 与 核 绑 定 后 
不 需要 对 资源 进行 加 锁 , 提 高 了 线程 的 并 行 性 。 

> 在 SPDK 框架 中 提供 了 两 种 轮 询 器 (Poller) :基于 定时 器 的 Poller( 框架 中 采用 spdk_ 
poller 结构 体 来 表示 ) 和 基于 非 定 时 器 的 Poller ,分 别 用 于 封装 定时 器 事件 处 理 例 程 和 
一 般 性 事件 处 理 例 程 。 

> Poller 将 SPDK 用 户 指 定 的 WO 处 理 图 数 、 事 件 回调 困 数 等 封装 起 来 形成 一 个 结构 
体 。 工 作 线程 (在 SPDK 框架 中 工作 线程 被 称 为 Reactor Thread ) 执行 时 会 不 停 地 轮 询 
这 些 Poller 并 执行 其 中 的 函数 。 这 有 点 像 通信 框架 中 的 反应 堆 模 型 ,只 不 过 反应 堆 模 
型 是 在 收 到 中 断 时 被 触发 调用 的 ,而 Poller 则 是 在 主动 轮 询 的 条 件 下 被 一 次 次 调 
用 的 。 

> 每 个 Reactor Thread 中 有 两 个 链表 分 别 维护 上 述 两 种 Poller , 每 个 链表 可 以 保存 多 个 
同 种 类 Poller ,同时 SPDK 也 提供 了 Poller 的 注册 和 注销 水 数 。 

2) 线程 间 通 信 

> SPDK 没有 采用 传统 的 基于 锁 、 信 号 量 等 机 制 的 线程 间 同 步 方式 ,而 是 采用 了 基于 事 
件 (Event) 调用 的 同步 通信 机 制 。 

在 Reactor Thread 对 应 的 数据 结构 中 ( spdk_reactor 结构 体 ) 维护 了 一 个 Event( spdk_ 
event 结构 体 ) 环 。 这 里 的 环 是 一 种 多 生产 者 - 单 消费 者 模型 的 队列 结构 。 


Ey 
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> 每 个 Reactor Thread 都 可 以 接受 包括 目 身 在 内 的 任何 Reactor Thread 发 来 的 消息 。 
> Event 结构 包含 了 本 Reactor Thread 需要 执行 的 图 数 .图 数 的 参数 以 及 该 困 数 执行 所 
要 求 的 处 理 器 核 的 信息 。 从 本 质 上 讲 ,线程 间 通 信 就 是 一 种 函数 调用 机 制 ,caller 调 
用 callee 就 是 一 种 最 基本 的 通信 。 
SPDK 框架 中 的 线程 模型 如 图 22 -57 所 示 。 


Core 0 ' Core 1 " Coren 


Event Event ' Event 


已 已 


图 22-S7 SPDK 框架 中 的 线程 模型 


3) VO 处 理 无 锁 化 机 制 

> SPDK 的 IO 采用 RTC 处 理 模型 ,核心 思想 是 让 一 个 线程 执行 完 所 有 的 任务 从 而 避 
免 线程 切换 .上下文 切换 和 缓存 数据 换 出 。 

> 在 LO 路 径 上 也 采用 了 无 锁 化 机 制 ,SPDK 提供 了 用 于 Reactor Thread 与 /0 设备 映 
射 的 IO Channel 结构 ,不 同 的 Reactor Thread 操作 同一 个 IO 设备 时 拥有 不 同 的 IO 
Channel . 

> LO 设备 的 资源 在 IO Channel 有 单独 的 一 份 副 本 , Reactor Thread 在 访问 资源 时 无 需 
对 设备 加 锁 , 直 正 需 要 加 锁 序 列 化 访问 的 工作 由 IO Channel 负责 ,并 不 挤占 Reactor 
Thread 的 时 间 卢 。 

这 里 要 强调 一 点 , 轮 询 机 制 只 有 在 存储 设备 性 能 超过 CPU 性 能 且 IO 并 发 量 特别 大 的 


情况 下 才 比 较 适 合 。 轮 询 的 本 意 是 消除 中 断 对 CPU 的 打扰 ,但 却 会 使 CPU 处 于 100% 的 运 
行 状态 。 试 想 如 果 存 储 设 备 性 能 低 于 CPU 性 能 ,为 了 使 存储 设备 被 充分 利用 却 使 CPU 处 于 
100% 的 状态 ,但 实际 发 生 的 IO 量 却 低 于 CPU 的 期 望 值 ,这 是 不 是 “ 扒 了 芝麻 于 西瓜 ”的 得 
不 偿 失 呢 ? 相 反 , 硅 此 时 采用 中 断 机 制 , 由 于 存储 设备 性 能 较 低 ,总 的 中 断 数 量 不 会 那么 高 ， 
对 CPU 的 打扰 也 不 会 那么 频繁 ,日 不 会 使 CPU 处 于 满 负 荷 状态 ,是 不 是 更 优 的 选择 呢 ? 


SPDK 也 提供 了 原生 的 图 数 库 ,包括 初始 化 与 反 初 始 化 .工作 线程 执行 .异步 谈 写 等 功能 
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2. SPDK 的 层次 特点 
SPDK 框架 结构 如 图 22 -$8 所 示 。 
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spdk app start / /框架 运行 初始 化 

spdk reactor run //Reactor Thread 执行 晴 数 

spdk app stop / /框架 运行 终止 

spdk nvme ns cmd read / /异步 读 写 

spdk nvme qpair process completions / /检查 异步 操作 是 否 完 成 

spdk event allocate / /创建 Event 

spdk event call // 传 Event 给 指定 的 处 理 器 核 并 执行 Event 
spdk allocate thread / /分 配 SPDK 线程 


SPDEK 17.03 


. 本 RDMA ee "me [3 
| Target (TCP ) P ee et [3 


VPP TCPAP | 


RocksDB | 
BlobFS - ] 


Linux || Ceph || PMDEK Virtlo 
i 如 ee iajlscsr be ee - 
<|[ fo 


NVMe 设 备 | ickDat: 
| Initiator 全 和 ser DE spdk—cli 


22 一 58 SPDK 框架 视图 (图片 来 自 DPDK 官网 ) 


SPDK 框架 月 底 疝 上 包含 了 以 下 组 件 层 . 

> 驱动 层 ( Drivers) :包括 NVMe SSD 抽象 设备 和 Intel 快速 WO (IOAT) 驱动 。 其 中 
NVMe SSD 抽象 设备 又 包括 NVMe PCI-E 驱动 模块 和 NVMe-oF 后 端 驱动 模块 。SPDK 
的 后 续 版 本 中 还 会 对 虚拟 化 做 扩展 。 


> 存储 服务 层 ( Storage Services ) : 该 层 又 可 分 为 两 个 子 层 , 即 块 设 备 层 和 块 设 备 抽 


象 层 。 

。 块 设备 层 包 括 了 作为 SPDK 后 端 存 储 的 RBD .负责 与 内 核 设备 交互 的 AIO .内存 分 
配 malloc 机 制 等 组 件 ; 
岂 设 备 抽象 层 则 包括 了 通用 的 块 设备 抽象 bdev 和 SPDK 实现 的 一 个 高 精简 的 类 
文件 语义 ( 非 POSIX ) 的 Blobstore。bdev 支持 连接 到 各 种 不 同 设备 驱动 和 块 设备 
的 存储 协议 ,类 似 于 文件 系统 的 VFS ,在 块 层 提供 灵活 的 API 用 于 额外 的 用 户 功 
能 ,例如 磁盘 阵列 \ 压 缩 和 去 见 等 。 

> 存储 协议 层 ( Storage Protocols ) : 包括 NVMe-oF Target 和 iSCSI Target 等 于 ,县 其 中 Target 
表示 存储 设备 。 
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本 章 小 结 


本 章 着 重 介绍 了 以 SDN .NFV 等 为 代表 的 新 一 代 通信 技术 以 及 相关 数据 面 加 速 框架 。 

软件 定义 网 络 部 分 着 重 介绍 了 SDN 相关 的 框架 .协议 . 链 路 发 现 机 制 和 开源 项 目 等 。 
同时 也 介绍 了 基于 SDN 的 网 络 功能 虚拟 化 ( NFV) 等 技术 体系 与 架构 。 最 后 还 介绍 了 5G 时 
代 非 常常 用 的 网 络 切片 相关 技术 。 

在 数据 面 加 速 技术 部 分 则 介绍 了 两 种 基于 Intel 平台 的 1/O 加 速 框架 , 即 基于 网 络 /0 
的 DPDK 加 速 框架 和 基于 存储 /O(NVMe SSD) 的 SPDK 框架 。 
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协议 栈 对 于 大 多 数 的 软件 系统 是 很 重要 的 组 成 部 分 ,是 处 于 应 用 软件 底层 的 “ 基 座 ”。 
这 是 因为 大 多 数 软 件 都 具有 通信 功能 ,有 通信 和 就 会 有 通信 标准 和 协议 。 而 在 现 有 的 协议 体 
系 中 ,以 TCP/AIP 协议 簇 最 为 通用 和 知名 。 在 协议 体系 中 ,一 般 不 可 能 由 一 种 协议 搞定 所 有 
的 通信 和 事务 ,因此 协议 是 按照 分 层 的 结构 “ 堆 闭 "起 来 共同 发 挥 作用 的 ,这 也 是 “协议 栈 ” 这 
个 名 词 的 由 来 。 

OSI 定义 了 从 物理 层 到 应 用 层 的 七 层 参 考 模型 ,由 这 些 层 对 应 的 协议 构成 了 OSI 协议 栈 
(例如 应 用 层 的 HTTP 协议 既 可 以 在 传输 层 的 TCP 协议 上 运行 也 可 以 在 UDP 协议 上 运行 ， 
而 无 论 TCP 还 是 UDP 都 只 能 运行 于 网 络 层 的 IP 协议 之 上 ) ,而 TCP/AIP 则 只 定义 了 从 物理 
层 到 应 用 层 的 五 层 模 型 ,如 图 23 -1 所 示 。 操 作 系 统 通 过 协议 栈 驱 动 的 方式 实现 了 OSI 参 
考 模型 的 下 半 部 分 ,上 半 部 分 则 一 般 由 应 用 软件 或 中 间 件 实现 。 


OSI 七 层 参 考 模 型 TCP/P 五 层 模 型 


应 用 层 


de 
| -- HTTP Telnet FTP TFTP DNS SMTP 


全 TCP UDP 
rE 二 


(| 数据 链 路 层 诈 路 层 (数据 链 路 层 人 ARP RARP IEEE802.3 PPP CSMA/CD 
物理 层 ) 物理 层 FE 月 协商 Manchester MLT-3 PAMS5 z 


图 23-1 OSI 七 层 参 考 与 TCP/IP 五 层 模型 的 对 应 关系 


在 本 章 中 ,我 们 将 阐述 TCP/IP 五 层 模型 的 网 络 层 .传输 层 和 应 用 层 中 特别 是 与 视 联 网 
与 物 联 网 有 关 的 各 种 协议 。 这 些 协 议 有 的 具备 堆 禾 关系 (例如 HTTP over TCP) ,有 的 则 不 具 
备 堆 芋 关系 。 这 里 我 们 并 不 准备 阐述 所 有 的 协议 ,对 于 常见 的 耳熟能详 的 协议 和 物理 层 \ 链 
路 层 协议 将 予以 略 过 ,对 于 不 常见 的 或 新 出 现 的 协议 将 重点 描述 。 

本 章 将 按照 图 23 -2 和 图 23 -3 所 示 的 提纲 介绍 网 络 层 协 议和 传输 层 协 议 。 在 应 用 层 
协议 部 分 ,将 分 成 视 联网 协议 栈 和 物 联网 协议 栈 两 部 分 予以 介绍 ，。 
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什么 是 安生 关联 ? 


特性 与 架构 体系 


IPSec 引 _ AH 协议 与 报 文 结构 
上 | PET Een ee 
ME A fh 
EE Es i de 


IPSec 的 两 种 封装 模式 是 什么 ? 
ER Je KE 的 安全 机 制 是 怎样 的 ? 
|_IKE 的 交换 过 程 是 怎样 的 ? 
ICMPv4 的 种 类 和 报 文 结构 
ICMPv6 的 种 类 和 报 文 结构 


ICMP//Internet 差 错 控制 协议 = 


组 播 地 址 问题 


组 成 员 管 理 问 题 : IJGMP 实 现 
组 播报 文 转发 问题 : 有 源 树 和 共享 树 


ha 入 | IGMPyrinternet 组 揪 组 控制 协议 | 组 播 路 由 协议 问题 _ 
有 CC 
性 意 信 源 组 播 模型 


组 播 机 制 的 几 个 关键 问题 上 


RSYP 协 议 框 架 
| : 资源 预 留 请 求 消息 
路 径 消息 
RSVP//Qos 控 制 协议 引 _ RSVP 协议 的 报 文 类 型 和 报 文 结构 := 
人 _ 拆 链 消息 
资源 预约 流程 


23 -2 网 络 层 协议 部 分 的 提纲 


501 


应 用 软件 开发 协议 栈 。 (Wa 


ep = pe ss 
a gi ss 


什么 是 SCTP ? 与 TCP 有 什么 不 同 ? 
多 宿主 
”多 流 


7 ， 平滑 关闭 
”选择 性 确认 
| 自动 保 活 
”SCTP 的 报 文 结构 
| SCTP 的 泻 手 协商 流程 
什么 是 QUIC 协 议 ?与 TCP、TLS$ 有 什么 不 同 ? 
建 Y 连 接 的 延 时 很 低 
| 改进 了 拥塞 控制 算法 
基于 Stream 和 Connection 级 别 的 流量 控制 
“没有 队 头 阻塞 的 多 路 复 用 


“者 户 铺 已 知 服务 器 参数 
QUIC 的 握手 协商 流程 ， 区 分 两 种 情况 和 
一 一 一 _ 夺 户 铀 未 知 服务 器 戎 数 


什么 是 UDT 协 议 ? 适用 于 什么 样 的 网 络 ?解决 了 TCP 的 什么 问题 ? 
UDT 的 优势 在 哪 ? 
| “UDT 的 软件 架构 ( UDT 软 件 栈 ) 


UDT 的 接收 与 发 送 机 制 


fr 


Cr 


UDT 5| ”UDT 的 连接 与 关闭 机 制 ， 基 于 两 种 机 式 
一 (AGERRZC 
UDT 的 定时 器 机 制 
，UDT 的 多 路 复 用 机 制 
| UDT 的 报 文 结构 
TLs 的 逻辑 某 构 以 及 在 协议 栈 中 的 位 置 
-| TLS 的 身份 认证 与 密 钥 协商 
|_DTLS 握 手 协商 流程 
拥塞 控制 的 相关 名 词 解 各 
| 拥塞 控制 的 几 个 阶段 : 慢 启动 、 拥 塞 避 免 、 快 速 重 传 、 快 速 恢复 
”拥塞 控制 状态 机 
”随机 早期 检测 


拥塞 控制 的 各 种 算法 : 直 于 丢 包 、 基 于 时 延 、 基 于 链 路 容 呈 、 基 于 
自学 习 


针对 传统 TCP 在 长 肥 网 络 中 的 劣势 提出 了 改进 


| | BBR 算 法 。/ BBR 拥塞 控制 的 几 个 阶段 : 慢 启 动 、 拥 塞 避 免 、 稳 定 运行 


| BBR 算 法 的 工作 机 制 


| ZetaTCP 加 这 技术 的 特点 
| TCpP 加 速 技术 “= 一 -一 一 
下 mmTrixTCP 加 速 技术 的 特点 


23 -3 传输 层 协议 部 分 的 提纲 
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23.1 网 络 层 协议 


网 络 层 协议 ( 卫 层 ) 是 通过 卫 来 寻 址 以 建立 两 个 节点 之 间 连 接 的 协议 , 它 为 从 源 闪 (发 
送 问 ) 的 传输 层 投递 过 来 的 报 文 分 组 选择 合适 的 路 由 市 点 并 投 送 到 目的 问 的 传输 层 。 因 此 ， 
网 络 层 协 议 应 包括 以 下 两 个 任务 : 

> 层 间 接口 :网络 层 将 传输 层 的 报 文 封装 成 卫 分 组 / 包 并 问 下 层 协议 传递 。 

> 路 由 接口 :选择 从 源 端 到 目的 端的 合适 传输 路 巾 。 

网 络 层 的 具体 协议 如 表 23 -1 所 示 ( 包括 但 不 限于 )。 

表 23 -1 常见 的 网 络 层 协议 
协议 分 类 | ”协议 类 型 协议 解释 协议 说 明 


IPv4/1Pve Internet Protocol 互联 网 通 信 协 议 


IPsec Internet Protocol Security 互联 网 安全 协议 


ILMPv47ICMPv6 | Internet Control Message Protocol 互联 网 控制 报 文 协 议 
控 a I(GMP Internet Group Management Protocol 互联 网 组 管理 协议 


RSVP Resource Reservation Protocol 资源 预 留 协议 
地 址 解 Address Resolution Protocol 地 址 解析 协议 


析 协 议 RARP Reverse Address Resolution Protocol 反 回 地 址 解 协 协议 


二 到 并 2 . 日 和 
de Border Cateway Protocol 边界 网 天 协 以 


RP 
OSPF Open Shortest Path First 开放 式 最 短路 径 优先 协议 
Routing Information Protocol 路 由 信息 协议 
-TS 


Intermediate System -to - Intermediate System | 中 间 系 统 到 中 间 系 统 协 议 


23.1.1 1Poec 


IPSec 是 由 互联 网 工程 任务 组 ( IETF) 发 布 的 ,是 为 IP 业务 提供 安全 保护 的 协议 标准 族 
(IPSec 不 仅仅 是 一 个 协议 ) 。 虽 然 IPSec 在 IPv4 中 是 可 选项 ,但 在 IPv6 中 却 是 必 选 的 支持 
项 ,这 也 可 以 看 出 网 络 层 对 于 安全 的 日 益 重 视 。IPSec 具有 以 下 安全 特性 : 

发 送 端 可 以 对 网 络 包 进行 加 密 ,保证 了 数据 机 密 性 (Data Confidentiality ) 。 

> 接收 端 可 以 对 接收 到 的 网 络 包 进行 认证 ,确保 其 中 途 未 被 算 改 ,保证 了 数据 完整 性 

( Data Integrity ) 。 
> 接收 端 可 以 认证 发 送 端 是 否 合法 a 防止 中 间 人 攻击 保证 下 数据 来 源 可 徘 性 ( Data 
Authentication ) 。 


> 接收 端 可 以 检测 和 拒绝 接收 那些 过 时 和 重复 的 网 络 包 。 


| 应 用 软件 开发 协议 材 Bp 


IPSec 广泛 应 用 于 三 层 数 据 加 密 领 域 ,例如 IPsec VPN。 基 于 IPSec 的 三 层 安全 加 密 具 有 
以 下 优势 : 

> 支持 密 钥 上 日 动 协 商 ( Internet Key Exchange ,IKE ,互联 网 密 钥 交换 ) 机制， 

> 与 普通 IP 协议 完全 兼容 ,基于 卫 协 议 的 应 用 无 需 修 改 代码 即 可 适 配 IPSec; 

> 以 IP 包 为 单位 封装 数据 ,避免 了 TCP 流 的 边界 问题 ,封装 灵活 。 

IPSec 是 一 种 三 层 包 的 加 密 机 制 ,因此 IPSec 协议 与 卫 协议 一 样 同 处 于 第 三 层 。 但 凡是 
加 蜜 必然 伴随 解密 ,因此 在 封 效 IPSece 包 之 前 震 要 对 包 体 内 容 的 加 解密 密 钥 、. 认 证 机 制 等 进 
行 协商 。 在 IPSec 架构 下 定义 了 两 种 协议 , 即 AH( Authentication Header, 认证 报 文 头 ) 协 议 
和 ESP( Encapsulating Security Payload , 封 闻 安全 载 何 ) 协议 ,分 别 应 用 于 包 的 认证 和 包 的 加 
密封 装 。 协 商 是 采用 IKE 机 制 完 成 的 。 

基于 AH 和 ESP 两 种 协议 的 IPsec 体系 架构 如 图 23 -4 所 示 。 


IPSec 架 构 


| = 


加 密 算 法 鉴 列 算法 
解释 域 (DOT) 


TIKE 协 商 
铭 钥 管理 


图 23 -4 IPSec 体系 架构 


1. AH 协议 

AH 是 通过 在 IP 报 文 关 和 卫 包 体 中 间 插 入 一 个 认证 摘要 头 实现 的 ,也 就 是 在 每 个 全 报 
文 头 后 面 都 插入 了 身份 验证 的 报 文 头 。 因 此 AH 协议 不 能 简单 理解 为 一 个 四 层 协议 ， 

在 IP 报 文 头 (如 图 23 -5 所 示 ) 中 ,AH 协议 (AH 摘要 头 ) 的 8 位 协议 号 是 51。AH 协议 
的 作用 是 提供 数据 源 认证 .完整 性 校 验 和 防止 报 文 重 放 。 不 过 虽然 AH 可 以 防止 自 改 , 却 不 
能 抵御 窃听 ,因为 AH 协议 并 不 负责 报 文体 的 加 密 。 

所 谓 摘要 ,就 是 将 任意 长 度 的 报 文通 过 散 列 算法 变换 成 固定 长 度 的 字符 串 ,使 该 字符 审 
不 再 具有 散 列 之 前 的 明文 特征 。 由 于 散 列 算法 是 不 可 首 的 ,因此 理论 上 是 不 能 由 字符 串 首 
向 推导 出 明文 的 , 且 明 文中 哪怕 只 改 了 一 个 字符 ,其 摘要 都 会 变化 (相同 散 列 算法 下 的 相同 
明文 的 摘要 相同 ) ,因此 多 用 于 数据 摘要 和 认证 的 场景 。 
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EE | Me 字符 浇 开 二 Frm 
a "et We 16 位 总 长 度 ( 字 节 数 ) 


16 位 标识 示 志 13 位 片 侦 移 


Wy 8 位 协议 号 16 位 头 部 检验 和 


32 位 源 [P 地 址 
32 位 目的 下 地 址 
选项 (如 果 


图 23-S$ IP 报 文 头 结构 


在 AH 协议 中 篆 用 的 摘要 算法 包括 MD5 .SHA1 入 MD5S 算法 计算 速度 快 但 安全 程 
度 低 ,SHA1 则 正好 相反 。AH 协议 是 对 整个 卫 包 进 行 Hash 摘要 (如 图 23 -6 所 示 ),AH 头 
部 结构 如 图 23 -7 所 示 。 


认证 报 文 头 


图 23-6 AH 在 下 包 中 的 位 置 (传输 模式 下 ) 及 摘要 的 范 辕 


汰 证 范围 (IP 报 文 头 中 可 变 域 除外 ) 


图 23-7 AH 头 的 结构 ( 传输 模式 下 ) 


2. ESP 协议 
ESP 是 一 种 能 够 实现 数据 加 密 .数据 源 认 证 .完整 性 校 验 和 防 重 放 等 多 种 功能 的 协议 ， 
其 在 卫 报 文 头 中 的 8 位 协议 号 是 50。 如 图 23 -8 所 示 ,ESP 的 封装 过 程 是 这 样 的 : 
(1) 对 原始 IP 包 进 行 加 密 (ESP 协议 中 的 加 解密 一 般 采 用 对 称 算 法 以 降低 计算 强度 ) 。 
(2) 在 密 文 的 前 面 创建 一 个 ESP 头 ,其 结构 如 图 23 -9 所 示 。 
(3) 将 上 述 两 部 分 数据 (原始 IP 包 +ESP 头 ) 进 行 摘 要 (MD5 或 SHA1 算法 ) 并 放 入 密 
0 填充 区 之 后 。 


本 应 用 软件 开发 协议 栈 Wa 
(4) 将 上 述 报 文 作为 新 的 IP 报 文体 巷 换 到 原始 IP 报 文 头 的 后 面 。 


IP 数 据 
TCP/UDP/ACMP 一 


_DES/3DESAAES 加 密 
the 


封装 安全 载荷 


hr 


IP 数 据 雪 充 
加 密 后 的 密 文 一 
MD5/SHA1 摘 要 算法 


ESP 


23 -8 ESP 封装 过 程 (传输 模式 下 ) 及 摘要 范围 


传输 模式 认证 ee 


认证 数据 


23 -9 ESP 头 的 结构 (传输 模式 下 ) 


从 上 述 流 程 可 以 看 出 ,ESP 与 AH 的 最 大 不 同 就 是 ESP 对 要 保护 的 数据 进行 加 密 后 再 
封包 。 常 用 的 加 密 算法 包括 DES 3DES 、AES 等 ,算法 的 安全 性 从 高 到 低 依次 为 AES 一 3DES 
一 DES。 在 实际 运用 时 ,ESP 往往 与 AH 联合 使 用 ,比如 先 对 报 文 进行 ESP 封 次 ,再 对 封装 后 
的 报 文 进行 AH 封装 ,故而 报 文体 从 内 到 外 的 顺序 是 :原始 卫 报 文 ( 报 文 头 + 报 文体 ) 一 ESP 
头 一 AH 头 一 原始 卫 报 文 头 , 如 图 23 - 10 所 示 。 


隧道 模式 


[si ie | 


ESP 加 黎 范 围 
ESPi\iE 沁 围 
AH 认证 范围 


图 23-10 AH 与 ESP 组 合 使 用 的 实例 
表 23 一 2 列 出 了 AH 协议 与 ESP 协议 的 性 能 对 比 。 
表 23 一 2 AH 协议 与 ESP 协议 的 性 能 对 比 


支持 (不 验证 了 正 头 ) 


数据 加 解密 


NT-T( NAT 穿 透 ) 


3. IKE 协商 机 制 
在 IPSec 架构 中 无 论 是 ESP 需要 的 加 解密 算法 ,还 是 AH 需要 的 认证 摘要 算法 ,都 需要 
通信 双方 进行 协商 才能 正常 使 用 。 正 E( 互 联网 密 钥 交换 ) 就 是 这 样 一 种 文 持 交换 协商 的 协 
议 , 它 为 IPsec 提供 了 目 动 的 密 钥 交换 协商 和 建立 安全 关联 (Security Association ,SA) 的 服 
务 ,并且 将 协商 好 的 参数 和 密 钥 上 交 给 IPSec。 因 此 ,IKE 作为 一 种 基于 UDP 的 应 用 层 协议 , 
也 是 IPSece 的 参数 协商 机 制 。 
1 ) 安全 关联 
所 谓 安全 关联 (SA) 是 一 个 抽象 的 概念 ,是 为 IPSec 提供 安全 数据 流 的 单 回 逻辑 关系 ,是 
对 等 的 通信 双方 对 某 些 要 素 的 约定 ,这 些 要 素 包 括 协 议 的 封装 模式 、 加 解密 算法 、 使 用 AH 
还 是 ESP 协议 等 。SA 束 像 一 个 代理 桥头 堡 一 样 , 通 信 双 方 各 需要 一 个 SA 用 于 代理 日 已 。 
SA 也 与 安全 协议 的 种 类 有 关系 ,例如 若 同 时 使 用 AH 和 ESP 两 种 协议 , 则 通信 的 每 一 
方 会 具有 两 个 独立 而 在 套 的 SA 来 代表 AH 和 ESP 及 其 从 套 关 系 , 所 有 流 经 同一 个 SA 的 数 
据 流 都 会 得 到 同样 的 服务 。SA 可 以 基于 手工 配置 方式 ,也 可 以 基于 IKE 自动 协商 方式 。 
一 个 SA 由 以 下 元 率 的 联合 体 唯 一 标识 . 
> 安全 参数 索引 (人 Security Parameter Index,SPI ) .这 是 个 位 于 AH 和 ESP 头 域 中 的 32 位 
的 整 型 数字 ,用 于 接收 端 识别 数据 流 与 SA 的 绑 定 关系 ; 
> 安全 协议 号 (IP 报 文 头 中 对 于 AH 或 ESP 的 标识 ) 。 
这 里 还 要 提 及 两 个 数据 库 : 安 全 关联 数据 库 ( Security Association Database ,SAD ) 和 安 
全 策略 数据 库 ( Security Policy Database ,SPD ) 。 前 者 用 于 存放 与 SA 关联 的 状态 数据 的 数 
据 结 构 , 后 者 指明 IP 包 所 对 应 的 安全 服务 及 其 服务 的 获取 方法 。 
2) 封装 模式 
在 IPSec 的 穿 透 过 程 中 存在 两 种 封装 模式 , 即 隧道 模式 和 传输 模式 ,如 图 23 一 11 所 示 。 
> 隧道 模式 (Tunnel) :使 用 整个 IP 包 来 计算 AH 或 ESP 头 ,AH 或 ESP 头 +ESP 加 密 的 
原 卫 报 文体 数据 被 封装 在 一 个 新 的 卫 包 中 ,如 图 23 -12 所 示 。 隧 道 模 式 相 当 于 IP 
包 的 和 藤 套 封装 ,具有 两 层 包 头 ,一 般 用 于 穿 透 互联 网 或 两 个 网 关 之 间 的 通信 场景 。 
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> 传输 模式 (Transport) :使 用 传输 层 的 数据 计算 AH 或 ESP 头 ,AH 或 ESP 头 +ESP 加 
密 的 原 IP 报 文体 数据 蔡 换 原来 的 卫 包 报 文 体 数据 。 一 般 用 于 局 域 网 .主机 到 主机 或 
主机 到 网 关 的 通信 场景 。 
隧道 模式 在 应 用 场景 中 更 为 常见 ,因为 增加 了 一 层 IP 报 文 尖 封装 ,虽然 在 解析 的 时 候 
多 了 一 层 开销 ,但 却 可 以 适用 于 从 PC 到 PC 乃至 网 关 到 网 关 的 所 有 通信 场景 ,也 非常 适合 
穿 透 互联 网 的 通信 场景 。 而 传输 模式 中 的 数据 包 由 于 只 含有 原 IP 包 的 目的 地 址 ,因此 在 穿 
透 时 很 可 能 被 丢弃 。 
3) IKE 的 安全 机 制 
IKE 不 是 在 网 络 上 下 接 传输 密 钥 ,而 是 通过 一 系列 数据 的 交换 ,最 终 计 算出 双方 共享 的 
密 钥 ,因此 采用 IKE 机 制 不 怕 密 钥 被 截获 。IKE 具有 以 下 安全 机 制 : 
> 数据 认证 :数据 认证 包含 两 方面 的 内 容 , 即 身份 认证 和 身份 保护 。 
。 号 份 认 证 文 持 预 共享 密 钥 (pre-shared-key ) 认证 和 基于 PKI 的 数字 签名 认证 两 种 
pi 
。 刁 份 保护 文 持 身份 数据 在 密 钥 产生 之 后 册 加 密 传 送 。 
> 交换 及 密 钥 分 发 算法 DH( Diffie-Hellman ) :通信 的 双方 可 以 在 不 传输 密 钥 的 情况 下 
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通过 交换 其 他 类 型 的 数据 计算 出 共享 的 密 钥 , 即 由 其 他 类 型 数据 推导 出 密 钥 。 
。 DH 算法 的 复 淋 度 很 高 ,即使 数据 被 截获 了 截获 者 也 计算 不 出 真正 的 密 钥 ,因此 保 
密 性 很 强 。 
。 DH 算法 是 IKE 安全 机 制 的 核心 。 
> 完善 的 前 向 安全 性 (Perfect Forward Secrecy ,PFS ) :所 请 前 向 安全 性 ,是 指 一 个 密 钥 
即使 被 破解 了 也 不 影响 其 他 密 钥 的 安全 性 ,因为 密 钥 之 间 没 有 派生 关系 。 前 问安 全 
性 是 由 DH 算法 保障 的 。 

4) IKE 的 交换 过 程 

以 IKEv1.0 为 例 ,IKE 的 交换 过 程 分 为 两 个 阶段 。 在 第 一 阶段 通信 各 方 彼此 之 间 要 建 
立 一 个 通过 吴 份 认证 的 .具有 安全 保护 能 力 的 通信 通道 , 即 建 立 IKE 本 身 的 SA, 并 协商 出 
IKE 加 密 和 认证 的 密 钥 ;在 第 二 阶段 采用 第 一 阶段 建立 的 安全 隧道 为 IPSec 协商 安全 服务 ， 
也 就 是 为 IPSec 协商 具体 的 SA 和 密 钥 ,以 建立 用 于 数据 安全 传输 的 最 终 的 SA。 

(1) 第 一 阶段 :本 阶段 有 两 种 IKE 交换 模式 : 主 模式 ( Main Mode ) 和 时 局 模式 
(Aggressive Mode) 。 主 模式 包含 SA 交换 、 密 钥 交 换 和 ID 交换 验证 三 个 步骤 ,其 工作 过 程 如 
图 23 一 13 所 示 ,具体 如 下 : 

中 发 送 端 先 向 对 端 发 送 本 端的 IKE 策略 信息 , 报 文中 携带 着 加 密 机 制 (DES) 、 散 列 机 
制 (MD5-HAMC) 和 认证 机 制 预 共 享 等 参数 。 

忆 对 并 的 应 答 方 回复 发 送 端 。 前 先 查 找到 发 送 辣 相关 的 策略 ,上 骨 将 目 己 的 信息 发 送 给 
发 送 端 ,这 个 过 程 中 应 答 方 会 生成 自己 的 Cookie 并 添加 到 数据 包 中 。 执 行 完 成 后 SA 安全 
策略 信息 也 就 交换 完成 了 。 

G@) SA 策略 信息 交换 完成 后 ,通信 双方 互 换 DH 公共 值 ,其 中 发 送 端的 报 文 中 还 包括 辅 
助 随机 数 等 信息 。 


协商 加 密 和 认证 算法 


Cr 
密 钥 交换 | ~ 


Diffie-Hellman 艾 换 


ICiCrSAr 


通信 双方 身份 
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23-13 第 一 阶段 主 模式 的 工作 过 程 
i 一 initiaor , 发 起 者 ;r 一 responsor, 啊 应 者 ;C 一 Cookie;SA 一 安全 认证 ; 
X,Y 一 DH 公共 值 ;N 一 Nonce ,随机 数 ;ID 一 已 方 身 份 信 息 ;Hash 一 散 列 值 
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邮 应 管 方 将 本 问 的 DH 公共 信和 Nonce 随机 数 返 回 给 发 送 病 , 密 钥 就 是 在 步 又 号 和 击 
中 产生 的 。 

(发 送 问 发送 验 证 报 文 ,以 验证 接收 问 就 是 目 己 要 通信 的 对 端 。 验 证 的 方式 可 以 是 预 
共 侍 ,数字 签名 、 加 密 临 时 值 等 。 

(@) 应 答 方 也 重复 上 一 步骤 ,以 验证 发 送 并 就 是 目 己 要 通信 的 对 端 。 因 此 , 步 纤 ( 罗 和 (@) 
用 于 号 份 认 证 并 对 上 述 6 步 交 换 的 内 容 进行 总 认证 。 

在 主 模式 中 ,前 面 4 个 交互 报 文 都 是 明文 ,后 面 2 个 是 密 文 。 野 恋 模 式 的 工作 过 程 要 比 
主 模式 简单 (如 图 23 一 14 所 示 ) ,主要 用 于 安全 要 求 不 是 那么 严格 的 场合 ,其 步骤 如 下 : 

WU 发 送 半 回 应 答 方 发 送 请 求 , 以 建立 SA ,发 起 DH 交换 。 

书 应 管 方 收 到 上 述 请 求 ,将 目 己 的 参数 和 散 列 值 返回 。 

(3) 发 起 方 发 送 请 求 认 证 应 答 方 。 


TICiXNiIDi 


图 23-14 第 一 阶段 野蛮 模式 的 工作 过 程 
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(2) 第 二 阶段 :这 个 阶段 只 有 一 种 信息 交互 模式 , 即 快速 模式 ,这 种 模式 定义 了 受 保 护 
的 数据 连接 是 怎样 在 通信 双方 建立 的 。 在 这 个 阶段 要 协商 安全 参数 以 保护 数据 连接 ,并 周 
期 性 地 对 数据 连接 刷新 密 钥 信息 。 

IKEv2.0 简化 了 IKEv1.0 的 协商 过 程 ,只 要 一 次 协商 就 可 以 产生 IPSece 的 密 钥 。 

总 结 起 来 ,IKE 为 IPSec mpl 自动 协商 交换 密 钥 的 机 制 以 及 建立 SA 的 服务 ,并 把 建立 
的 SA 的 参数 和 生成 的 密 钥 递交 给 IPSec。IPsec 使 用 IKE 建立 的 SA 对 IP 报 文 加 密 或 认证 ， 
同时 也 为 IPsec 协商 密 钥 , 供 AH/ESP 加 密 和 验证 使 用 ,如 图 23 -15 所 示 。 


SA 协商 
Router A 司 已 Router B 
TCP/UDP TCP/UDP 
IPSsec IPSec 
加 窗 的 IP 报 文 


图 23 -1sS 基于 SA 的 IPSec( 图 片 来 自 CSDN) 
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23.1.2 ICMP 


1. ICMPv4 
ICMP 是 IP 层 的 同 层 报 文 协 议 ,是 对 IP 协议 的 辅助 和 分 担 , 虽 人 然 ICMP 被 PP 协议 承载 ， 
但 一 般 也 看 作 与 IP 协议 同 级 。 在 卫 通信 过 程 中 ,由 于 路 由 器 不 能 处 理 某 些 报 文 分 组 而 不 得 
不 将 这 些 报 文 分 组 丢 痉 (需要 源 点 抑制 ) ,或 者 由 于 目的 端的 UDP 并 口 错误 而 导致 目的 问 口 
不 可 达 , 这 些 情况 都 属于 目的 不 可 达 错 误 , 需 要 将 这 些 信 息 传 递 到 发 送 端 。ICMP 就 承担 着 
这 样 的 任务 , 它 是 一 种 面 回 无 连接 的 协议 。 
ICMP 报 文 一 般 可 以 分 为 两 类 . 
(1) 错误 通知 :一般 是 由 目的 问 或 路 由 需 加 发送 站 发 送 ,是 用 于 通知 出 错 原 因 的 错误 消 
息 ,例如 源 点 抑制 .UDP 目的 端口 不 可 达 目的 端 主机 地 址 不 可 达 等 。 
(2) 信息 查询 .一 般 是 发 送 病 问 目 的 端 发 送 , 包 括 ping 命令 .traceroute 命令 .查询 子 网 
挫 码 查询 目的 端 时 间 等 。 
ICMP 报 文 的 格式 如 图 23 -16 所 示 。 其 中 : 
> 类 型 :表示 ICMP 报 文 类 型 , 它 的 值 根据 报 文 的 内 容 来 确定 ,占用 1 个 字 节 。 
> 代码 :用 于 确定 ICMP 报 文 的 错误 类 型 ,例如 是 地 址 不 可 达 还 是 端口 不 可 达 , 占 用 1 个 
字 节 。 
> 校 验 和 :用 于 检测 ICMP 报 文 是 否 正 确 传送 ,占用 2 个 字 厄 。 
> 标识 符 和 序号 :不 同 的 类 型 和 代码 具有 不 同 的 内 容 ,不 定 长 。 图 23 -16 中 的 标识 符 
和 序号 是 ping 报 文 中 独 有 的 ,分别 占 用 2 个 字 节 。 
> 选项 数据 :包含 于 报 文 数据 内 部 ,用 于 返回 出 错 的 参数 和 记录 出 错 报 文 的 片段 ,帮助 
源 节 点 判断 错误 的 原因 或 其 他 问题 。 


IP 尖 部 py 
icp 


尖 型 (0 或 8) 代码 (0) 
8 位 8 位 
标识 符 序号 
16 位 16 位 


选项 数据 (可 选 ) 


图 23 -16 ICMP 报 文 格式 


ICMP 报 文 的 前 三 个 字段 (类 型 代码、 校 验 和 ) 是 通用 的 ,每 一 种 ICMP 报 文 都 有 ,后 面 
的 数据 则 随 厦 类 型 的 不 同 而 发 生变 化 ,例如 类 型 为 0 的 ping 报 文 就 只 包括 了 标识 人 特 和 序号 
两 部 分 ,如 图 23 一 17 所 示 。 
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田 Frame 343: 74 bytes on Wire (592 bits), 74 bytes captured (592 bits) on interface 0 
田 Ethernet II, Src: 00:18:82:f7:d4:64 (00:18:82:f7:d4:64), Dst: 2c:44:fd:80:bc:25 (2c:44:fd:80:bc:25) 
田 Internet Protocol Version 4, Src: 125. 39. 8. 249 (125. 39. 8.249), Dst: 112. 53. 68. 29 {112. 53. 68. 29) 
BB Internet Control Message Protocol 
Type: 8 (Echo (ping) request) 
Code: 0 
Checksum: Ox76cb [correct] 
Identifier (BE): 16138 (0x3f0a) 
Identifier (LE): 2623 (0x0a3f) 
Sequence number (BE): 38790 (0x9786) 
Sequence number (LE): 34455 (0x8697) 
田 [No response seen] 
四 Data (32 bytes) 


图 23 -17 ”ping 命令 的 ICMP 报 文 实例 
两 类 ICMP 报 文 中 ,信息 查询 的 最 主要 应 用 是 ping 命令 , 发送 疹 通过 发 送 Echo Request 


和 接收 Echo Reply 来 探测 网 络 情况 ,例如 ping 报 文 中 包含 发 送 的 请 求 时 间 ,以 此 计算 出 路 程 
来 回 的 耗 时 (RTT) 等 。 而 错误 通知 则 包含 如 下 几 类 ; 


本 | 


> 源 抑 制 : 一 般 是 由 路 由 带 瓶 颂 造 成 的 ,网 络 报 文 可 能 由 于 瞬时 并 发 而 造成 路 由 各 拥 寒 
过 载 从 而 主动 丢 包 ,这 时 路 由 需 应 回 发 送 端 发 送 源 抑制 的 ICMP 报 文 以 通知 其 降低 发 
送 速度 。 

> 目的 端 不 可 达 : 包 括 UDP 端口 不 可 达 主机 地 址 不 可 达 、 网 络 不 可 达 、 报 文 需 要 分 段 
等 多 种 情况 。 此 时 目的 闪 主 机 或 中 途 的 路 由 大 会 回 发 送 新 回 送 这 类 ICMP 报 文 。 


> 超时 :网 络 包 超过 在 网 络 中 的 生存 时 间 却 还 设 有 到 达 , 这 时 需要 回 送 超时 消 县 。 路 由 


傣 每 转送 一 次 数据 报 文 就 将 IP 包头 部 的 TIL( Time To Live, 代 表 生 存 时 间 ,一 般 TIL 
值 是 255 ,不 同系 统 的 TIL 值 不 一 样 ) 的 值 减 1 , 当 该 值 减 为 0 时 代表 已 经 经 过 了 允许 
经 过 的 最 大 路 由 需 效 ,也 就 是 超时 了 ,这 时 当前 路 由 硕 应 沿 原 路 回 送 超时 消息 


> 路 由 重 定向 :可 以 通过 traceroute 命令 探测 发 送 病 主机 到 目的 端 主机 的 路 由 情况 本 


质 上 也 是 TTL 的 应 用 之 一 。 
表 23 -3 中 列 出 了 ICMP 报 文 类 型 与 代码 。 


表 23-3 ICMP 消息 报 文 类 型 与 代码 


送 回 答 ,与 回 送 请 求 成 对 被 ping 命令 使 用 
终点 不 可 达 
网 络 不 可 达 


a 主机 不 可 达 


EE 


要 分 片 ,但 该 数据 包 的 DF( 不 要 分 片 ) 已 设 


本 到 
5 | 源 点 路 由 选择 不 能 完成 
Ta 
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一 


错误 通知 


主机 不 可 达 , 因 为 管理 机 构 已 经 在 该 主机 上 放置 了 过 滤器 (由 RFC 
1812 追加 ) 


错误 通知 


错误 通知 


缺少 所 需 的 选项 部 分 (由 RFC 1108 追加 ) 
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2. ICMPv6 
基于 IPv6 的 ICMP 协议 也 是 用 于 传递 错误 和 故障 信息 的 ,但 是 与 基于 IPv4 的 ICMP 协 
议 相 比 在 格式 上 已 经 发 生 了 很 大 变化 。 与 ICMP 报 文 一 样 ,ICMPv6 报 文 仍然 分 为 两 大 类 , 即 
差错 控制 和 信息 查询 。 但 除 此 之 外 ,ICMPv6 增加 了 一 些 路 由 类 协议 功能 ,例如 邻居 发 现 、 节 
点 信息 查询 ,组 播 监 听 等 ,也 就 是 说 ,ICMPv6 实现 了 IPv4 中 ICMP 、ARP 和 IGMP 的 功能 ,如 
表 23 -4 所 示 。 
表 23-4 ”ICMPv6 报 文 类 型 


在 IPv6 包头 中 ,NextHeader =58 表示 IPv6 包头 后 封闭 了 一 个 ICMPv6 消息 ,其 结构 如 图 
23 一 18 所 示 , 其 中 ICMPv6 的 报 文 主体 长 度 是 可 变 的 。 
0 3 4 ]1 12 ls 16 23 24 31 


i 
唤 各 让 sxtHeader=5E 跳 妆 限制 


图 23 一 18 IPv6 包头 封装 的 ICMPv6 报 文 (图 片 来 自 CSDN) 
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4 种 差错 控制 报 文 的 消息 格式 如 图 23 -19 所 示 。 
校 验 和 =ICMP 校 验 和 
在 整个 分 组 不 超过 最 新 IPv6 MTU(1280) 情 况 下 装载 尽 
可 能 多 的 原始 分 组 
校 验 和 =ICMP 校 验 利 


在 整个 分 组 不 超过 最 新 IPv6 MTU(1280) 情 况 下 装载 尽 
可 能 多 的 原始 分 组 


在 整个 分 组 不 超过 最 新 IPv6 MTU(1280) 情 况 下 装载 尽 
可 能 多 的 原始 分 组 


从 二 代码 =0/1/2 校 验 和 =ICMP 校 验 和 
在 整个 分 组 不 超过 最 新 IPv6 MTU(1280) 情 况 下 装载 尽 
可 能 多 的 原始 分 组 


图 23-19 4 种 差 钵 控制 报 文 的 消息 格式 


除了 包含 ICMP 的 差错 控制 和 信息 查询 功能 外 ,ICMPv6 还 具有 组 播 收听 发 现 和 邻居 发 
(1) 组 播 收 听 发 现 (Multicast Listener Discovery ,MLD ) :组 播 收 听 发 现 协 议 (MLD 
Protocol, MLDP) 定 义 了 两 种 ICMPv6 报 文 。 
> 组 播 收 听 查 询 报 文 :组 播 路 由 硕 癌 组 播 组 成 员 发 送 该 报 文 以 获取 成 员 状 态 。 
> 组 播 收听 者 报告 报 文 : 作 为 对 上 述 消息 的 回应 ,组 播 组 成 员 回 路 由 硕 报 告 目 身 的 状 
态 ,也 包括 告知 离开 组 播 组 ( 主动 发 送 ) 。 
(2) 邻居 发 现 ( Neighbor Discovery ) :邻居 发 现 协议 (Neighbor Discovery Protocol, NDP) 
定义 了 5 种 ICMPv6 报 文 ,如 表 23 -5 所 示 。 
> 路 由 器 通告 报 文 :路 由 硕 以 组 播 方式 回 域 内 发 送 该 通告 报 文 , 回 成 员 告知 其 可 用 性 等 
信息 。 路 由 天 可 以 周期 性 地 主动 发 送 ,也 可 以 在 收 到 主机 的 路 由 天 请 求 协议 后 作为 
应 答 发 出 。 
> 路 由 怖 请 求 报 文 : 主 机 回 域 内 的 路 由 希 发 送 该 报 文 ,以 获取 路 由 硕 通告 消息 。 
> 邻居 请 求 报 文 : 这 是 一 条 链 路 层 地 址 请 求 协议 ,用 于 主机 验证 保存 在 本 地 缓存 中 的 链 
路 层 地 址 是 否 过 期 和 叭 一。 发 送 的 方 回 是 从 主机 到 邻 届 主机 。 
> 邻居 通告 报 文 : 主机 在 收 到 邻 抽 请 求 消息 或 本 机 的 MAC 地 址 发 生 改 变 时 ,采用 该 协 
以 问 邻 届 主 机 进行 通告 (新 的 MAC 地址) 。 包 括 原 本 由 ARP 负责 的 地 址 解析 协议 也 
申 邻居 请 求 和 邻居 通告 报 文 来 实现 。 
> 重 定向 报 文 : 路 由 器 发 送 该 报 文 以 通知 主机 重新 定向 它 发 送 分 组 到 目的 主机 的 路 径 ， 
这 意味 着 有 一 个 更 好 的 下 一 跳 节 点 来 蔡 代 路 由 融 上 月 己 。 
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表 23-5S 邻居 发 现 协议 为 ICMPv6 定义 的 报 文 类 型 


撒 文 名 和 


路 由 天 请 求 ( RS ) 


邻居 请 求 ( NS) 
邻居 通告 (NS ) 


23.1.3 IGMP 


组 播 机 制 解 决 了 单 播 机 制 下 因数 据 重 复 拷 贝 而 重复 占用 网 络 带 宽 的 问题 ,也 解决 了 广 
播 机 制 下 的 报 文 分 组 洪 泛 而 造成 的 市 宽 浪 费 .传输 效率 低下 的 问题 。 组 播 在 电信 行业 有 看 
广泛 应 用 ,例如 IPTV 就 是 基于 组 播 机 制 实 现 的 ,IPTV 里 的 一 个 电视 频道 对 应 一 个 组 播 记 地 
址 , 当 需 要 接收 该 频道 的 信息 时 就 加 入 该 组 播 组 ,否则 就 离开 。 组 播 的 汇聚 点 叫 作 中 介 点 
(Rendezvous Point,RP) ,组 播 将 数据 报 文 单 播发 送 到 RP,RP 将 这 些 报 文 的 拷贝 分 发 给 各 个 
组 播 订 阅 者 。 可 以 看 出 ,组 播 RP 将 数据 报 文 的 拷贝 分 发 限定 在 传输 的 “最 后 一 公里 ”。 基 
于 此 ,组 播 机 制 需 要 解决 下 面 儿 个 关键 问题 : 
(1) 组 播 地 址 问题 :组 播 是 加 一 组 接收 者 而 非 全 部 接收 者 或 单个 接收 者 发 送 报 文 。 组 播 
地 址 问题 是 如 何 确定 这 组 接收 者 的 问题 。 一 个 组 播 组 包含 右 干 个 接收 者 ,组 播 组 可 以 分 为 
永久 组 播 组 和 临时 组 播 组 两 类 。 
(2) 组 成 员 管理 问题 :组 播 接收 者 通过 加 入 组 播 组 来 实现 对 组 播报 文 的 接收 ,组 成 员 管 
理 问 题 是 接收 者 怎样 动态 地 加 入 和 离开 组 播 组 的 问题 。 
(3) 组 播报 文 转发 问题 :组 播报 文 在 网 络 中 怎样 被 转发 到 组 播 接 收 者 的 问题 。 
(4) 组 播 路 由 协议 问题 .就 是 组 播 转 发 树 ( 组 播报 文 的 转发 路 径 ) 是 如 何 构 建 的 问题 。 
我 们 先 介 绍 一 下 组 播 模 型 的 分 类 。 
> ASM 模型 : Any-Source Multicast ,任意 信 源 组 播 模 型 。 任 意 一 个 发 送 者 都 可 以 作为 组 
播 源 回 某 组 播 组 地 址 发 送信 息 。 接 收 者 无 法 预先 知道 组 播 源 的 位 置 ,但 可 以 在 任意 
时 间 加 入 或 离开 该 组 播 组 。 
> SSM 模型 .Source-Specific Multicast , 指定 信 源 组 播 模 型 。 组 播 组 的 成 员 可 能 对 某 些 组 
播 源 发 送 的 报 文 分 组 感 兴趣 ,而 忽略 其 他 源 发 送 的 报 文 分 组 。 该 模型 为 用 户 提 供 了 
一 种 能 够 在 客户 端 指定 组 播 源 的 传输 服务 ,接收 者 事先 通过 其 他 手段 预先 知道 了 组 
播 源 的 具体 位 置 。 
> SFM 模型 :Source-Filtered Multicast , 信 源 过 滤 组 播 模型 。SFM 模型 对 ASM 模型 进行 
了 扩展 ,上 层 软 件 对 收 到 的 组 播报 文 的 源 地 址 进行 检查 ,允许 或 栓 止 来 日 某 些 组 播 源 
的 报 文 通过 ,接收 者 只 能 收 到 来 目 部 分 组 播 源 的 组 播报 文 。 
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1. 组 播 地 址 问题 


D 关 网 组 播 地 址 分 为 三 种 类 型 : 预 留 组 播 地 239.255.255.255 
址 .用 户 组 播 地 址 和 本 地 管理 组 播 地 址 ,如 图 23 - 


239.0.0.0 


20 所 示 。 当 路 由 闫 的 网 络 层 处 理 收 到 的 组 播 数 238.255.255.255 
据 报 文 时 ,根据 组 播 目 的 地 址 查找 组 播 转 发 表 , 继 
而 对 报 文 进行 转发 。 用 户 组 播 地 址 
> 预 留 组 播 地 址 :范围 是 224.0.0.0 ~ 224. 0. 
0.255 ,这 段 地 址 被 IANA( Internet Assigned 


Numbers Authority ,互联 网 数字 分 配 机 构 ) 224.0.0.255 a 
s \ 预 留 组 播 地 址 
项 留 , 除 224.0.0.0 外 ,其 他 地 址 供 路 由 协 224.0.0.0 


议 及 拓扑 查找 和 维护 协议 使 用 ,并 且 只 能 
用 于 局 域 网 ,日 不 论 TTL 为 多 少 都 不 会 被 
> 用 户 组 播 地 址 .范围 是 224.0.1.0 ~238.255.255.255 ,全 网 范围 内 有 效 。 其 中 232. 0. 
0.0/8 为 SSM 组 地 址 ,下 接 在 接收 者 和 其 指定 的 组 播 源 之 间 建 立 专 用 的 组 播 转发 路 
径 , 其 余地 址 则 为 ASM 组 地 址 。 
> 本 地 管理 组 播 地 址 .范围 是 239. 0.0.0 ~239.255.255.255, 仅 在 特定 的 本 地 范围 内 
2. 组 成 员 管 理 问题 
组 播 成 员 通 过 ICMP( Internet Group Management Protocol ,互联 网 组 管理 协议 ) 实现 加 入 / 
离开 组 播 组 。IGMP 是 个 组 管理 协议 ,用 于 在 卫 主机 以 及 与 其 直接 相 邻 的 组 播 路 由 器 之 间 
建立 和 维护 组 播 组 的 成 员 关 系 ,以 便 路 由 需 知 道 各 接口 所 对 应 子 网 上 都 有 哪些 组 的 成 员 。 
IGMP 规定 了 两 大 类 功能 :加 入 组 和 查询 组 内 成 员 活 动 状 态 , 也 就 是 说 主机 既 可 以 通过 
ICMP 通知 路 由 融和 希望 接收 或 离开 某 个 特定 组 播 组 ,同时 路 由 器 也 可 以 通过 ICMP 周期 性 地 
查询 当前 组 播 组 的 成 员 状 态 和 成 员 关 系 信息 。 
截至 目前 ,IGMP 共有 三 个 版 本 : 
> IGMPv1 :定义 了 基本 的 组 成 员 查 询 和 报告 的 过 程 。 
> IGMPYy2 :增加 了 组 成 员 快速 离开 .查询 需 选 举 等 机 制 。IGMP 查询 需 收 到 离开 组 消息 
后 ,会 发 送 特定 组 查询 消息 来 确定 该 组 的 所 有 组 成 员 是 否 都 已 离开 。 
> IGMPv3 :增加 了 组 播 组 成 员 指定 接收 或 者 拒绝 接收 来 日 条 些 组 播 源 报 文 的 机 制 ( 文 
持 指 定 信 源 组 播 SSM 模型 ) ,增强 了 主机 控制 能 力 和 查询 /报告 报 文 的 功能 。 
所 有 版 本 的 IGMP 都 文 持 ASM 模型 ,其 中 ICMPv3 可 以 直接 应 用 于 SSM 模型 ,而 
IGMPv1 和 IGMPv2 则 需要 在 IGMP SSM Mapping 技术 的 支持 下 才能 应 用 于 SSM 模型 。 
组 播 协议 分 为 三 层 组 播 协议 和 二 层 组 播 协议 两 种 。 三 层 组 播 协 议 包括 组 播 组 管理 协议 
(IGMP) 和 组 播 路 由 协议 ( 详 见 “组 播 路 由 协议 问题 部 分 )。 二 层 组 播 协议 则 包括 ICMP 


图 23-20 D 类 网 组 播 地 址 划分 


Sm 


Es) srrnanan y 


Snooping 和 组 播 VLAN。 


IGMP Snooping( Internet Group Management Protocol Snooping ,互联 网 组 管理 协议 舌 探 ) 


是 一 种 运行 于 链 路 层 的 组 播 协议 。 主 机 发 往 IGMP 查询 器 的 报 文 经 过 交换 机 时 ,交换 机 要 
对 该 报 文 进行 监听 和 记录 ,并 建立 交换 机 端口 与 组 播 MAC 地 址 之 间 的 关系 。 当 交换 机 后 续 
可 以 解决 二 层 环境 中 的 组 播报 文 泛滥 问题 ,但 要 求 交换 机 能 够 解读 三 层 报 文 且 需 要 对 所 有 
组 播报 文 监听 和 解析 。 


518 


3. 组 播报 文 转发 问题 
组 播 通 过 转发 树 机 制 实 现 数 据 报 文 转发 ,有 两 种 转发 树 模 式 .、 
> 有 源 树 (Source Tree ) :以 组 播 源 为 树 根 , 将 组 播 源 到 每 一 个 接收 者 的 最 短路 径 结 合 


起 来 构成 的 转发 树 称 为 有 源 树 ,也 被 称 为 最 短路 径 树 。 对 于 每 个 组 播 组 ,路 巾 希 要 为 
每 个 回 该 组 发 送 报 文 的 组 播 源 建立 有 源 树 , 且 要 保存 每 个 组 播 源 的 路 由 信息 ,因此 路 
由 表 的 规模 比较 庞大 。 

共享 树 ( Rendezvous Point Tree,RPT) :与 有 源 树 不 同 , 共 至 树 以 菏 个 踏 由 锅 ( RP) 作 
为 树 根 ,由 RP 到 所 有 接收 者 的 最 短路 径 结 合 起 来 构成 的 转发 树 称 为 共享 树 。 因 此 ， 
所 有 的 组 播 源 和 接收 者 都 使 用 该 共享 树 收 发 报 文 ,组 播 源 先 回 RP( 树 根 ) 发 送 数 据 报 
文 ,之 后 RP 将 报 文 癌 下 转发 到 所 有 接收 者 ,如 图 23 -21 所 示 。 虽 然 共 3 


树 相 较 于 有 
源 树 在 路 由 融 中 保留 了 更 少量 的 路 由 信息 ,但 是 组 播 源 发 出 的 报 文 要 先 经 过 RP 再 到 
接收 者 ,这 个 路 径 可 能 并 非 最 短 。 


和 


本 


主机 A 192.1.1.1 


路 由 器 D 


(共享 根 ) 
一 192222 02333 


主 相 
23 一 21 共享 树 模式 实例 
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由 于 组 播报 文 是 发 送 给 一 组 接收 者 的 ,因此 这 些 接收 者 可 以 用 一 个 组 播 地 址 标识 。 路 
由 器 在 收 到 组 播报 文 后 ,必须 根据 报 文 的 源 地 址 确定 其 正确 的 人 接口 (指向 组 播 源 方向 ) 和 
下 行 方 同 , 然 后 将 其 沿 着 远离 组 播 源 的 下 行 方 回转 发 。 这 个 过 程 称 为 逆向 路 径 转 发 (RPF)。 
路 由 需 收 到 组 播报 文 后 先 对 其 进行 RPF 检查 ,只 有 检查 通过 才 执 行 转 发 。RPF 检查 的 过 程 
为 :路 由 器 在 单 播 路 由 表 中 查找 组 播 源 或 RP 对 应 的 RPF 接口 ,如 果 组 播报 文 是 从 RPF 接口 
接收 过 来 的 , 则 RPF 检查 通过 , 报 文 癌 下 行 接口 转发 ;否则 就 丢弃 该 报 文 。 
4. 组 播 路 由 协议 问题 
组 播 路 由 协议 要 解决 转发 树 如 何 构建 这 个 问题 , 即 确定 从 组 播 数据 源 到 组 播 组 所 有 成 
员 的 转发 树 。ASM 模型 的 组 播 路 由 协议 分 为 域内 和 域 间 两 种 ,其 中 域内 组 播 路 由 协议 又 可 
> 稠密 模式 的 组 播 路 由 协议 :稠密 模式 是 指 组 播 成 员 集 中 在 一 个 小 范围 内 ,因此 可 以 采 
用 " 洪 泛 + 裁剪 ”的 组 播 组 进行 转发 。 这 样 的 协议 包括 DVMRP( 距离 器 量 组 播 路 由 协 
议 ) 和 PIM-DM( 协 议 无 关 组 播 协 议 - 密 集 模 式 ) 。 
> 稀 玻 模式 的 组 播 路 由 协议 : 稀 玻 模式 是 指 组 播 成 员 分 散在 一 个 大 范围 内 ,每 个 特定 区 
域内 的 成 员 较 少 。 这 样 的 协议 包括 PIM-SM( 协议 无 闫 组 播 协 议 -稀疏 模式 ) 和 CBT 
(基于 中 心 的 分 布 树 协议 ) 。 
> 链 路 状态 协议 : 链 路 状态 协议 使 用 SPT 向 网 络 中 的 接收 点 发 送 组 播 数据 报 文 。 这 样 
的 协议 包括 MOSPF( 开放 式 组 播 最 短路 径 优 先 协议 ) 。 
域 间 组 播 路 由 协议 包括 : 
> MBGP( 组 播 边界 网 关 协 议 ) :用 于 在 目 治 域 之 间 交 换 组 播 路 由 协议 。 
> MSDP( 组 播 信 源 发 现 协议 ) :用 于 在 ISP 之 间 交 换 组 播 信 源 信息 。 
对 于 SSM 模型 则 没有 域内 与 域 则 之 分 ,由 于 接收 者 事先 知道 组 播 源 的 具体 位 置 ,因此 只 
需 借助 PIM-SM 构建 的 通道 即 可 实现 传输 功能 。 


23.1.4 RSVP 


RSVP 是 QoS 控制 协议 的 一 种 ,顾名思义 就 是 在 传输 的 中 间 节 点 上 要 求 为 数据 流 你 留 一 
定 的 带宽 资源 并 维护 这 种 资源 的 状态 。RSVP 是 为 QoS 体系 中 的 综合 业务 模型 服务 
( Integrated Service ) 而 设计 的 ,具有 以 下 特点 : 

> RSVP 采用 传输 接收 端 发 起 申请 的 策略 ,沿途 反问 申请 资源 。 

> RSVP 本 身 并 不 处 理 流 量 控制 和 采 略 控制 的 参数 , 它 仅 仅 是 这 些 参数 的 

执行 资源 预 留 的 实体 是 路 径 中 的 路 由 大 和 交换 机 。 

> RSVP 虽 建 立 在 卫 协议 之 上 ,但 本 质 上 还 是 属于 三 层 协议 。 

> RSVP 是 个 单 问 协 议 , 只 能 在 一 个 方向 上 (接收 闯 一 发 送 痪 ) 预 留 催 源 。 

> RSVP 可 满足 多 个 接收 器 的 预定 要 求 ,支持 这 些 接收 端 预 定 不 同 数 量 的 资源 

> RSVP 对 话 由 一 个 三 元 组 表示 :目的 地 址 .协议 号 .协议 端口 。 
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> 为 了 建立 并 维护 分 组 数据 传输 通道 中 各 交换 机 的 状态 ,RSVP 建立 了 异 构 信和 窒 树 。 
RSVP 协议 框架 由 决策 控制 模块 接纳 控制 模块 .分 类 控制 模块 分 组 调度 模块 和 RSVP 
处 理 模块 五 部 分 构成 ,如 图 23 -22 所 示 。 


| IST 


图 23 -22 RSVP 协议 框架 


> 决策 控制 模块 :用 于 判定 用 户 进程 是 否 拥 有 资源 预 留 的 许可 权 。 
> 接纳 控制 模块 :用 于 判定 当前 的 可 用 资源 是 否 能 满足 用 户 进程 的 需求 。 
> 分 类 控制 模块 :用 于 判定 数据 分 组 的 通信 服务 等 级 ,实现 分 组 过 滤 。 
> 分 组 调度 模块 :根据 服务 等 级 对 数据 分 组 进行 优先 级 排序 。 
> RSVP 处 理 模块 :根据 分 类 和 调度 模块 所 要 求 通信 服务 质量 的 参数 保留 资源 ,同时 也 
为 未 能 获得 决策 控制 和 接纳 控制 许可 的 节点 路 由 器 产生 预 留 错误 消息 并 发 送 回 接 
收 端 。 
RSVP 协议 包括 4 种 报 文 消 息 。 
1 ) 资源 预 留 请 求 消息 (RESYV ) 
网 络 资 源 巴 留 是 由 RESV 和 PATH 消息 共同 实现 的 ,这 类 消息 必须 是 从 接收 痪 回 发 送 
跨 发 送 ,其 路 径 是 根据 PATH 消息 反 回 推导 出 来 的 。RESYV 消息 想 要 生效 必须 最 终 到 达 发 送 
疹 主 机 ,只 有 这 样 才能 为 传输 中 的 第 一 跳 设 置 合适 的 QoS 参数 。 
基本 的 资源 预 留 请 求 包 含 一 对 域 : 流 规格 域 和 粒 选 规格 域 ,用 于 进行 流 描 述 。 
> 流 规格 域 :用 于 指定 资源 请 求 中 的 服务 质量 ,包含 了 服务 等 级 的 参数 和 两 个 参量 ,这 
两 个 参量 分 别 用 于 描述 数据 流 的 流量 参量 (Tspec) 和 定义 需要 保留 的 服务 质量 参量 
(Rspec ) 。 
> 筛选 规格 域 .定义 了 数据 报 能 否 接受 流 规格 指定 的 服务 质量 。 
e。 可 以 根据 发 送 端的 一 些 特征 回 量 来 定义 筛选 方式 ,比如 源 PP 地 址 . 源 端 口号 等 。 
e 如 果 一 个 会 话 中 的 数据 报 不 符合 凯 选 规格 , 则 它 就 不 能 以 指定 的 服务 质量 被 传 
送 ,而 只 能 被 网 络 以 “尽力 而 为 ”的 方式 传送 。 
2) 路 径 消息 (PATH ) 
与 RESV 消息 相反 ,PATH 消息 是 由 发 送 端 基于 单 播 或 组 播 的 方式 回 接 收 端 发 送 的 , 消 
息 中 承载 了 每 个 节点 (路 由 器 ) 的 路 径 状态 。RESYV 消息 正 是 通过 PATH 消息 才 回 漳 到 发 送 
闪 的 。 
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3 ) 错误 和 确认 消息 
确认 消息 是 针对 资源 预 留 请 求 的 确认 ,而 错误 消息 则 分 为 两 类 :PATH 错误 消息 和 
RESYV 错误 消息 
> PATH 错误 消息 是 由 路 径 错误 引起 的 ,并 最 终 传送 到 最 初 的 发 送 端 以 告知 路 径 出 错 ; 
> RESV 错误 消息 ita 留 请 求 消息 引起 的 ,并 传送 到 最 终 的 接收 端 以 告知 预 留 出 
错 消 息 ,例如 某 个 节点 无 法 支持 预约 的 资源 。 
4) 拆 链 消 息 
拆 链 消 息 用 于 删除 路 径 和 资源 预 留 状 态 ， 包括 两 种 类 型 .PathTear 消息 和 ResvTear 消 
昌 ,节点 (路 由 兹 ) 状 态 的 删除 可 能 会 引起 本 节点 相关 预约 状态 的 更 新 。 
> PathTear 是 针对 PATH 消息 的 , 即 删除 从 消息 发 送 节 点 到 所 有 消息 接收 者 路 径 上 的 
预约 状态 ,PathTear 消息 的 路 由 与 PATH 消息 严格 一 致 。 
> ResvTear 是 针对 RESV 消息 的 , 即 删除 从 消息 接收 和 节点 到 所 有 消息 发 送 者 路 径 上 的 
预约 状态 ,ResvTear 消息 的 路 由 与 RESV 消息 严格 一 致 。 
RSVP 消息 由 三 部 分 构成 :RSVP 消息 头 段 .RSVP 对 象 段 和 RSVP 对 象 内 容 。 消 息 头 段 
的 结构 如 图 23 -23 所 示 , 其 中 “类 型 "(第 三 个 域 ) 用 于 标注 上 述 4 种 报 文 类 型 的 细 分 场景 
(如 表 23 -6 所 示 ) 。 


图 23 -23 RSVP 消息 头 段 的 结构 (初始 行 代表 占用 的 位 数 ) 


表 23-6 PSVP 协议 报 文 类 型 


略 23 一 24 RSVP 对 象 段 的 结构 (第 一 行 代表 占用 的 位 数 ) 
> 长度: 以 字 节 为 单位 的 对 象 总 长 度 。 
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> 分 类 号 .表示 对 象 类 型 。 该 分 类 号 没有 具体 定义 ,只 要 能 被 RSVP 识别 即 可 。 

> C -类 型 :可 与 分 类 号 一 起 定义 每 个 对 象 唯 一 的 ID。 

RSVP 资源 预约 的 流程 大 致 是 这 样 的 : 

(1) 发 送 咒 首先 加 目的 闪 发 送 PATH 消息 ,用 于 描述 发 送 咒 的 数据 格式 、 源 地 址 、 源 站 
口号 等 流量 与 路 径 特 征 。 

(2) 目的 端 通过 PATH 消息 了 解 到 发 送 问 的 反 转 路 径 并 决定 哪些 资源 被 预 留 。 

(3) 目的 端 根据 上 述 信息 反 回 发 送 包 含 资 源 预 留 参数 的 RESV 消息 给 上 游 的 路 由 兹 ， 
以 便 它 们 建立 预 留 状 态 并 定期 更 新 。 


23.2 传输 层 协 议 


在 我 们 日 常 的 开发 工作 中 ,传输 层 协 议 是 与 应 用 软件 联系 最 为 紧密 的 协议 层 。 一 般 来 
说 ,操作 系统 采用 socket 机 制 对 网 络 层 和 传输 层 进行 了 很 好 的 封装 ,我 们 无 需 过 多 关注 底层 
细节 ,但 因为 传输 层 之 上 就 是 负责 各 种 业务 功能 的 应 用 层 协 议 ,应 用 层 协 议 的 某 些 传输 特性 
取决 于 传输 层 ,因此 了 解 传 输 层 协议 是 十 分 重要 的 。 

在 这 里 我 们 不 准备 对 非常 成 熟 并 且 资 料 翔 实 的 TCP 和 UDP 进行 葡 述 , 转 而 介绍 一 些 较 
为 少见 的 、 近 些 年 刚刚 出 现 的 传输 层 协议 (SCTP、QUIC、UDT 等 ) 。 

传统 的 传输 层 协议 一 般 是 指 TCP 和 UDP, 这 两 种 协议 各 有 优 缺 点 。 当 前 新 出 现 的 传输 
层 协 议 一 般 是 基于 这 两 个 协议 做 的 优化 和 增强 ,特别 是 借鉴 UDP 的 快速 传输 特性 和 TCP 的 
拥 窗 控制 特性 衍生 的 新 协议 ,这 就 是 我 们 党 说 的 RUDP( Reliable UDP, 可 乱 UDP)。 本 市 中 
的 SCTP .QUIC ,UDT 等 都 是 基于 这 种 方式 实现 的 。 虽 然 这 些 协议 基于 TCP 和 UDP,“ 看 上 
去 ”应 该 属于 传输 层 之 上 的 应 用 层 ,但 这 些 协 议 都 是 为 应 用 服务 的 ,都 是 具体 的 应 用 报 文 承 
载 协议 ,因此 我 们 将 其 都 归 类 为 传输 层 协 议 。 还 要 强调 一 点 ,这 里 所 说 的 应 用 层 是 指 TCP/ 
IP 五 层 模 型 中 的 应 用 层 ,而 不 是 OSI 七 层 参考 模型 中 的 应 用 层 。 

除了 上 述 几 种 传输 层 协议 ,目前 也 有 许多 特殊 领域 的 传输 层 协议 是 基于 RUDP 的 ,例如 
流 媒体 领域 的 RTP/RTCP ,本 质 上 也 是 在 UDP 的 基础 上 增加 了 丢 包 反馈 等 可 靠 性 机 制 ,也 可 
以 看 作 RUDP 的 一 种 简单 实现 。 还 有 一 些 领域 则 直接 在 UDP 上 嫁接 了 改进 的 定制 化 的 TCP 
拥塞 控制 算法 。 正 因为 数据 传输 本 身 和 拥塞 控制 本 来 就 是 相对 解 耦 的 两 种 技术 , 而 近年 来 
拥塞 控制 算法 也 层出不穷 并 得 到 了 很 大 的 增强 ,因此 这 样 的 “嫁接 ”也 是 可 行 的 。 

TCP 经 典 拥塞 算法 分 为 4 个 部 分 : 慢 局 动 .拥塞 避免 .拥塞 处 理 和 快速 恢复 ,这 4 个 部 分 
都 是 为 了 控制 发 送 窗 口 和 发 送 速度 而 设计 的 ,其 实 就 是 为 了 在 当前 网 络 条 件 下 通过 网 络 丢 
包 来 判断 网 络 拥塞 状态 ,从 而 确定 比较 合适 的 发 送 窗口 。 由 于 TCP 拥塞 控制 已 经 广泛 应 用 
于 RUDP 中 了 ,因此 本 节 也 会 介绍 一 些 控制 算法 。 

RUDP 在 拥塞 控制 中 对 于 重 传 的 要 求 包括 定时 重 传 .请 求 重 传 和 FEC( 前 向 纠 错 ) 选 择 
重 传 三 种 。 
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> 定时 重 传 :发 送 疹 在 一 个 RTO( Retransmission TimeOut, 重 传 超 时 时 间 ) 周 期 后 并 未 收 
到 发 送 数 据 包 的 ACK 确认 消息 ,这 可 能 是 由 于 ACK 报 文 丢 失 或 链 路 过 长 导致 ACK 
仍 在 途 等 原因 造成 的 。 但 在 定时 重 传 要 求 下 发 送 端 会 认为 已 经 丢 包 并 重 传 先 前 的 数 
据 包 。 

> 请 求 重 传 :接收 闹 在 发 送 ACK 确认 消 县 的 时 候 携 市 丢失 报 文 的 包 号 或 者 序列 号 信 
县 ,比如 UDT 协议 中 的 NAK( Negative Acknowledgement, 否定 确认 ) 反 馈 就 是 采用 这 
种 方式 。 发 送 闪 在 接收 到 这 种 ACK 确认 消 明 后 根据 包 号 或 序列 号 选择 性 重 传 。 

> FEC 选择 重 传 :发 送 站 发 送 报 文 时 ,会 根据 FEC 的 算法 将 报 文 分 组 ,再 通过 XOR( 异 
或 ) 的 方式 得 到 和 看 干 元 余 包 ,并 伴随 春 数 据 包 一 起 发 给 接收 闫 。 接 收 病 发 现 丢 包 时 通 
过 元 余 包 和 分 组 内 其 他 剩余 数据 包 可 以 还 原 丢 失 包 。 但 这 不 是 万 全 之 策 ,因为 如 采 
包 丢 得 太 多 就 无 法 还 原 了 ,这 时 要 向 发 送 端 请 求 原始 数据 包 。 

下 面 我 们 就 来 介绍 具体 的 传输 协议 。 


23.2.1 SCGIP 


SCTP( Stream Control Transmission Protocol , 流 控 制 传输 协议 ) 是 一 种 兼 有 TCP 和 UDP 两 
种 协议 特征 的 新 的 传输 层 协议 。SCTP 借鉴 UDP 的 优点 解决 了 TCP 的 某 些 局 限 , 但 其 可 靠 
传输 和 拥塞 控 制 的 机 制 基本 上 继承 于 TCP, 并 做 了 改进 和 完善 。SCTP 与 TCP 一 样 基于 网 络 
层 协 议 , 也 使 用 五 元 组 ( 源 地 址 \ 源 端口 .目的 地 址 ,目的 端口 .协议 号 ) 来 唯一 标识 一 个 连接 
( SCTP 中 称 为 耘 联 ) , 而且 也 文 持 bind ,listen .connect .accept ,close 等 操作 ,可 以 说 SCTP 就 是 
TCP 的 加 强 版 。 下 面 我 们 列举 一 些 SCTP 独 有 的 特性 。 

1. SCTP 的 特性 

1) 多 宿主 ( Mulit-Homing) 机 制 

多 宿主 也 叫 作 多 路 径 传 输 , 即 通信 的 两 端 都 可 以 绑 定 到 多 个 IP 地 址 上 ,只 要 有 一 对 了 P 
地 址 能 够 互通 则 SCTP 的 耦 联 (相当 于 TCP 中 的 连接 ) 就 可 以 用 。 在 多 宿主 机 制 下 端口 必须 
是 唯一 的 ,也 就 是 说 支持 SCTP 绑 定 多 卫 地 址 ,但 不 文 持 绑 定 多 端口 ,TCP 的 单 箱 主机 制 与 
SCTP 的 多 答 主 机 制 如 图 23 -25 所 示 。 


(SCTP) 


图 23 一 25 TCP 的 单 宿主 机 制 与 SCTP 的 多 和 究 主 机 制 523 
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在 多 和 宿主 机 制 中 ,者 一 条 路 径 失 效 ,SCTP 会 通过 另 一 条 路 径 来 发 送 数据 ,应 用 程序 不 必 
知 追 发 生 了 故障 和 切换 ,也 不 必 关 注 如 何 恢复 。 发 生 上 故障 时 ,SCTP 首先 切换 通信 对 端的 地 
址 ,如果 切换 后 仍 无 效 则 切换 本 端 地 址 。SCTP 使 用 内 艇 的 心跳 保 活 机 制 来 维持 耦 联 中 各 条 
路 径 的 可 用 性 。 

2) 多 流 (Mulit-Streaming ) 机制 

在 SCTP 的 耘 联 中 使 用 流 来 表示 需要 按 顺 序 提交 到 高 层 协议 的 用 户 消息 的 序列 ,一 个 帮 
联 中 可 以 存在 多 条 流 , 每 一 条 流 中 的 消息 都 会 按 顺 序 提交 到 上 层 , 如 图 23 -26 所 示 。 


图 23-26 耦 联 中 的 多 流 机 制 


每 条 流 都 有 唯一 的 流 编 号 ,这 个 编号 是 编码 到 SCTP 的 报 文 头 中 的 。 在 耦 联 的 多 条 流 
中 ,阻塞 的 流 理论 上 是 不 会 影 到 其 他 流 的。 在 同一 条 流 中 ,SCTP 支持 有 序 传输 和 无 序 传 
输 两 种 方式 。 在 调用 SCTP 的 sendmsg 方法 时 要 指定 在 哪 一 条 流 上 用 哪 种 方式 来 进行 传输 。 
> 有 序 传输 以 顺序 优先 ,在 遇 到 丢 包 等 情况 的 时 候 可 能 会 在 接收 问 被 阻塞 ( 例如 等 待 丢 

失 的 包 重 传 ) 。 有 序 传输 是 SCTP 流传 输 的 上 默认 方式 。 
> 无 序 传 输 以 效率 优先 ,不 会 在 接收 端 被 阻塞 ,即使 遇 到 丢 包 等 情况 也 不 需要 人 鼻 等 重 传 


丢失 的 包 。 

> 无 序 传输 多 用 于 面向 消息 的 协议 ,这 是 因为 大 部 分 消息 本 对 都 是 独立 的 ,与 消息 的 次 
序 没 有 关系 。 

> 在 SCTP 流 中 可 以 配置 无 序 传 输 方式 ,也 可 以 在 一 个 耦 联 中 选择 性 地 对 部 分 流 配 置 无 
序 传输 方式 。 


3) 初始 化 保护 机 制 
在 SCTP 中 ,初始 化 保护 机 制 主要 是 指 连接 建立 时 的 保护 。 与 TCP 不 同 ,SCTP 建立 连 


接 需 要 四 次 握手 ,其 过 程 如 图 23 一 27 所 示 。 
客户 应 服务 端 


socket,bind,listen 
socket (被 动 打 升 ) 
connect( 阻 震 ) INIT(Ta JJ) accept( 阳 禾 ) 


(主动 打开 ) 
ACK(TZ 区 ,COOKIE C) 


acceptreturns( 服 务 端 接受 连接 ) 
read( 阻 中) 
connect returns 
人 ) 
上 23 -27 SCTP 的 四 次 握手 过 程 ( 初始化) 


Ta Tz 建立 连接 时 双方 使 用 的 验证 标志 
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SCTP 也 分 为 客户 端 和 服务 端 ,这 一 点 与 TCP 是 一 样 的 ,并 且 握 手 协商 都 是 由 客户 端 发 
起 的 。 

(1) 客户 端 自 先 问 服 务 病 发 起 INIT 消息 。 

(2) 服务 端 回复 INIT-ACK 消 奶 作为 应 容 , 该 报 文中 要 携 币 服务 端 生成 的 Cookie 信息 作 
为 标识 本 次 连接 的 唯一 上 下 文 。 

(3) 客户 端 再 次 向 服务 端 发 送 COOKIE-ECHO 报 文 响应 , 报 文中 包括 步骤 (2) 中 的 
Cookie 信息 ,以便 服务 并 进行 验证 。 

(4) 服务 端 对 上 述 Cookie 进行 验证 , 当 Cookie 正确 时 才 分 配 连接 通信 的 相关 资源 ,并 
向 客户 端 回复 COOKIE-ACK 消息 作为 应 答 。 

从 上 述 流程 可 以 看 出 ,在 SCTP 的 四 次 握手 协商 中 ,前 面 两 次 客户 端 与 服务 端 都 不 需要 
保存 连接 状态 ,也 不 需要 分 配 资源 ,以 此 来 化 解 SYN Flood 攻击 的 风险 。 而 在 TCP 的 三 次 握 
手 过 程 (如 图 23 -28 所 示 ) 中 ,由 于 在 服务 端 接收 到 SYN 请 求 后 就 开始 分 配 资源 保留 状态 
(SYN_RCVD 状态 ) ,因此 面 对 SYN Flood 攻击 时 只 有 不 断 地 消耗 资源 ,最终 导致 资源 耗 尽 。 
客户 病 服务 并 


SYN_SENT. SYN=] seq=] 


,SYN_RCVYD 


Svel RE 和 和 SEE 
ESTABLISHED 


ACK=] ack=K+l 


es 
图 23- 28 ”TCP 的 三 次 握手 过 程 (初始 化 ) 


男 外 ,因为 要 使 用 四 次 握手 机 制 ,必然 会 市 来 一 定 的 数据 延迟 问题 。SCTP 允许 把 数据 
包含 到 COOKIE-ECHO 和 COOKIE-ACK 报 文 中 进行 合并 发 送 ,以 提前 开始 数据 传输 来 减少 
延迟 ,因此 反而 比 TCP 更 早 地 “进入 状态 ”。 

4) 消息 分 帧 机 制 

TCP 是 面向 字 节 的 ,SCTP 则 是 以 数据 块 /消息 为 传输 单位 的 ,以 此 来 保护 消息 边界 。 

> 在 SCTP 的 发 送 过 程 中 ,应 用 进程 调用 sendmsg 接口 时 以 该 函数 发 送 的 数据 作为 一 个 

整体 的 消息 数据 块 ,并 且 放 在 SCTP 报 文 的 Data Chunk 数据 结构 中 发 送 。 这 一 点 就 
比较 类 似 UDP 的 发 送 方式 了 ,边界 非常 明确 。 

> 如 果 一 条 消息 过 长 (例如 超过 了 链 路 中 的 MTU) ,SCTP 发 送 时 也 会 将 消息 数据 拆 分 成 

多 个 片段 并 封 竣 在 多 个 Data Chunk 数据 结构 中 ,再 通过 多 个 SCTP 包 发 送 给 接收 病 。 
> 在 SCTP 的 接收 过 程 中 ,接收 端 进程 调用 recvmsg 接口 时 收 到 的 都 是 一 条 完整 的 消息 
数据 ,一 般 来 讲 其 边界 与 发 送 时 sendmsg 接口 封装 的 一 致 ,这 是 因为 接收 端 也 是 以 
Data Chunk 为 单位 来 接收 和 解析 数据 的 。 
> 发 送 多 条 短 消 息 时 可 以 被 SCTP 发 送 闹 合并 成 一 条 SCTP 消息 (包含 多 个 Data Chunk 
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结构 ) 发 送 以 提高 发 送 效 率 , 接收 端 接收 时 也 同样 可 以 看 到 多 个 一 一 对 应 的 Data 
Chunk 数据 结构 。 
可 以 看 出 ,在 SCTP 的 传输 过 程 中 , Data Chunk 是 数据 分 界 的 “ 容 需 ”。 
5) 平滑 关闭 机 制 
与 TCP 不 同 ,SCTP 采用 了 三 次 握手 关闭 耦 联 的 机 制 , 我 们 称 之 为 “平滑 关闭 ” ,这 是 与 
TCP 相 比 而 言 的 “平滑 ”。 在 TCP 中 采用 了 四 次 握手 机 制 来 结束 连接 会 话 , 每 一 方 奋 想 结束 
会 话 就 要 进行 “FIN-ACK"” 协商 交互 ,也 就 是 说 在 TCP 双 工 的 基础 上 ,连接 可 以 半 关 闭 ( 一 次 
FIN-ACK 握手 ) ,也 可 以 全 关闭 (两 次 FIN-ACK 握手 ) 。 
SCTP 简化 了 关闭 握手 协商 ,不 文 持 半 连接 或 者 半 关 财 状 态 。 因 为 在 实际 使 用 过 程 中 ， 
半 关 闭 其 实 没有 太 大 的 用 处 ,反而 徒 增 了 协商 的 复杂 性 。 类 似 于 TCP 的 初始 化 握手 ,SCTP 
关闭 耦 联 条 用 了 三 次 握手 ,如 图 23 -29 所 示 。 


(被 动 关闭 ) 

readj 芭 吕 10 

close 
SHUTDOWN—ACK—SENT 


CLOSED 


23 -29 SCTP 的 三 次 握手 过 程 (关闭 耦 联 ) 

6) 选择 性 确认 机 制 

与 TCP 不同,SCTP 的 确认 号 (SACK) 是 用 于 确认 丢失 数据 包 的 。TCP 中 确认 序号 返回 
的 是 发 送 病 已 成 功 收 到 数据 字 节 序号 (不 包含 确认 序号 所 指 的 字 市 ) ,而 SCTP 反馈 给 发 送 
器 的 是 丢失 的 并 且 要 求 重 传 的 消息 序号 。 这 样 加 大 大 减少 了 服务 端 需要 发 送 的 回复 数量 ， 
做 到 了 “有 事 局 委 ,无 事 退 朝 ” 般 的 高 效 。 

7) 心跳 保 活 机 制 

SCTP 协议 本 喘 文 持 心 跳 保 活 机 制 (Heartbeat) 来 监控 而 联 或 路 径 ( Path ) 的 可 用 性 ,不 同 
的 路 径 都 可 以 由 心跳 或 者 数据 的 传输 /确认 来 监控 其 状态 (是 否 可 用 ,是 否 还 保持 连接 状 
态 ) 。 这 种 心跳 保 活 机 制 是 上 层 的 应 用 进程 感觉 不 到 的 。 而 TCP 则 需要 上 层 应 用 进程 日 主 
地 发 送 心跳 以 保 活 连接 。 

从 以 上 摘 述 中 可 以 看 出 ,SCTP 既 与 TCP 相似 ,也 有 对 于 TCP 的 改进 之 处 ,特别 是 其 报 
文 格式 与 TCP 有 了 很 大 的 不 同 。 最 主要 的 改进 是 引进 了 适应 数据 块 传输 的 Data Chunk 结 
构 , 这 大 大 改善 了 数据 分 界 特性 ,而 这 一 点 在 TCP 中 往往 是 通过 进程 在 应 用 层 协 议 中 实 
现 的 。 

2. SCTP 报 文 结构 

SCTP 报 文 也 分 为 头 域 与 消息 体 两 大 部 分 ,其 中 消息 体 以 Data Chunk 作为 分 界 单位 ,每 
个 Data Chunk 包含 了 一 个 消息 数据 块 。 一 个 SCTP 可 以 包含 多 个 Data Chunk ,只 要 总 的 大 小 
不 超过 链 路 中 的 MTU 就 行 (INIT、INIT-ACK SHUTDOWN 报 文 除外 ,对 这 种 类 型 的 消息 ， 
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SCTP 报 文 只 能 承载 一 个 Data Chunk ) 。Data Chunk 既 可 以 承载 控制 信息 也 可 以 承载 用 户 进 
程 的 数据 信息 。SCTP 报 文 结 构 如 图 23 -30 所 示 。 


16 bits 16 bits 


Source Port Number Destination Port Number 


Verification Tag 


23 一 30 SCTP 报 文 结构 


SCTP 报 文 头 占 12 个 字 节 ,其 中 包含 了 源 端口 号 和 目的 端口 号 ,这 一 点 也 是 四 层 协议 的 
特征 (传输 层 是 要 解决 端口 问题 的 ) 。 同 时 , 报 文 头 中 还 包括 了 验证 标签 和 校 验 码 信息 。 上 
述 几 个 属性 统称 为 SCTP 的 公共 报 文 头 。 

> 验证 标签 (Verification Tag ) :建立 看 联 时 ,发 起 端 为 该 看 联 生 成 一 个 32 位 的 随机 数 

字 标 识 (Tag) 。 耦 联 建立 过 程 中 ,双方 会 交换 这 个 Tag。 在 数据 传递 时 ,发 送 端 必须 
在 公共 报 文 头 中 珊 上 对 痊 的 这 个 Tag 以 备 校 验 ,从 而 防范 中 间 人 攻击 。 

> 校 验 码 ( Checksum ) :用 于 数据 完整 性 校 验 , 由 数据 发 送 端 产 生 ,接收 端 负责 验证 。 

报 文 头 后 面 紧 接着 报 文体 , 报 文体 是 由 一 个 或 多 个 Data Chunk 组 成 的 。Data Chunk 有 
自己 的 类 型 , 表 23 -7 描述 了 数据 和 控制 两 种 报 文 的 Data Chunk 类 型 。 
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表 23 -7 Data Chunk 的 类 型 值 


Data Chunk 标识 值 Data Chunk 类 型 Data Chunk 标识 值 Data Chunk 类 型 


ABORT 
SHUTDOWN 


> 块 类 型 (Chunk Type) :是 在 Data Chunk 的 第 一 个 字 节 中 体现 的 ,这 是 个 单字 节 的 属 
性 ,表示 了 块 值 (Chunk Value ) 的 类 型 。 对 于 接收 病 不 能 识别 的 块 类 型 (例如 用 户 上 月 
己 扩展 的 数据 类 型 ) ,Chunk Type 的 高 两 位 标识 了 对 这 些 块 的 处 理 操作 ,这 些 操作 
包括 : 

e 0x00 :停止 处 理 并 丢弃 当前 报 文 , 不 再 处 理 该 报 文 中 其 他 的 Data Chunk 。 

e。 0x01 :停止 处 理 并 丢弃 当前 报 文 ,也 不 再 处 理 该 报 文 中 其 他 的 Data Chunk , 并且 需 
要 在 ERROR 或 INIT-ACK 报 文中 向 发 送 问 返回 这 个 不 能 识别 的 块 类 型 值 。 

e 0x10. 跳 过 该 Data Chunk 继续 处 理 其 他 的 块 。 

e。 0x11: 跳 过 该 Data Chunk 继续 处 理 其 他 的 块 , 并 且 需 要 在 ERROR 或 INIT-ACK 报 
文中 辐 发 送 疹 返 回 这 个 不 能 识别 的 块 类 型 值 。 

> 块 标志 位 ( Chunk Flags) :用 法 由 块 类 型 决定 。 

> 块 长 度 ( Chunk Length) : 块 类 型 块 标志 位 \ 块 长 度 和 块 值 几 部 分 的 总 长 度 ,使 用 二 
进 制 格 式 表 示 。 

> 块 值 ( Chunk Value) :包含 的 数据 内 容 。 


23.2.2 QUIC 


作为 传输 层 协 议 的 QUIC( Quick UDP Internet Connection ， 快速 UDP 互联 网 连接 ) 协 议 有 
两 种 形态 ,一 种 是 由 Google 人 研发 制定 的 gQUIC( Google QUIC) 协 议 , 男 一 种 则 是 由 正 TF 提出 
的 iQUIC(IETF QUIC ) 协 议 , 后 着 是 对 前 痢 的 改进 和 增强 。 但 无 论 是 哪 种 ,本 质 上 QUIC 协议 
都 是 使 用 UDP 进行 多 路 并 发 传输 的 协议 ,其 宗旨 也 都 是 加 速 HTTP 通信 并 使 其 更 安全 ,以 最 
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终 在 Web 上 代替 TCP 和 TLS 协议 。 因 此 QUIC 在 功能 上 等 价 于 TCP + TLS + HTTP2.0。 与 
TCP 相 比 ,QUIC 具有 许多 新 特性 。 

1. QUIC 的 特性 

1 ) 连接 建立 延 时 低 

建立 Web 连接 时 ,TCP 方式 下 要 首先 建立 TCP 连接 (三 次 握手 ) ,之 后 要 建立 TLS 连接 
(三 次 握手 ) ,最 后 才 是 HTTP 协议 报 文 的 交互 ;而 在 QUIC 方式 下 ,只 需要 建立 QUIC 连接 
(三 次 握手 ) 即 可 在 其 上 运行 HTTP 协商 交互 ,如 图 23 -31 所 示 。 这 是 因为 QUIC 用 它 目 己 
的 框架 格式 代 巷 了 TLS 协议 的 记录 层 , 同 时 保留 了 与 原来 相同 的 TLS 握手 消 和 县。 因此 一 次 
QUIC 协商 相当 于 TCP + TLS 的 两 次 协商 。 


基于 TCP+TLS 的 HTTP 诸 求 
服务 病 


基于 QUIC 的 HTTP 诸 求 
客户 应 


图 23-31 OUIC 与 TCP +TLS 协议 上 的 HTTP 交互 过 程 对 比 


2) 改进 的 拥塞 控制 算法 

TCP 采用 传统 的 慢 启 动 + 拥塞 避免 + 快速 重 传 + 快速 恢复 的 拥塞 控制 机 制 ,QUIC 协议 
则 默认 使 用 TCP 的 Cubic 拥塞 控制 算法 ,同时 还 支持 CubicBytes 、 Reno ,RenoBytes .BBR 和 
PCC 等 拥塞 控制 算法 。 

在 TCP 中 , 慢 局 动 的 规则 是 这 样 的 : 

> 当 cwnd < ssthresh 时 ,使 用 慢 局 动 算法 ,这 一 阶段 ewnd 是 翻 倍 增长 的 (1. 2 .4、…) ; 

> 当 cwnd > ssthresh 时 ,停止 使 用 慢 局 动 算 法 而 改 用 拥塞 避免 算法 ,这 一 阶段 ewnd 是 线 

性 增长 的 (NN +1\N +2、…); 

> 当 cwnd = ssthresh 时 , 既 可 使 用 慢 启 动 算法 ,也 可 使 用 拥 寨 避 人 免 算法 。 

在 这 里 ,cwnd 代表 拥塞 窗口 的 大 小 ,ssthresh 表示 慢 局 动 国 值 。 慢 局 动 和 拥塞 避免 是 
TCP 拥塞 控制 的 两 个 阶段 。 在 TCP 中 发 送 问 考 夸 到 了 接收 闯 的 接收 能 力 , 因 此 让 己 病 的 发 
送 窗口 小 于 等 于 拥塞 窗口 的 大 小 (cwnd)。 慢 局 动 的 核心 思想 就 是 一 开始 先 发 送 少量 的 数 
据 来 探测 下 网 络 的 拥 夫 程 度 , 青 由 小 及 大 地 增加 拥塞 窗 口 的 大 小 ,下 到 拥塞 窗口 的 大 小 赶 上 
慢 局 动 国 值 (ssthresh) , 赶 上 和 超过 以 后 ,TCP 发 送 闪 就 不 能 册 这 么 狗 狂 和 盗 意 地 发 送 了 ,这 时 
应 采用 潮 进 式 的 发 送 梨 略 (拥塞 避免 阶段 ) ,使 用 拥塞 避免 算法 线性 地 增 大 拥塞 窗口 。 


ey 


= 应 用 软件 开发 协议 栈 LN 
无 论 在 慢 局 动 阶段 还 是 在 拥塞 避免 阶段 ,只 要 发 送 端 判断 网 络 出 现 拥塞 (其 根据 就 是 没 


有 收 到 ACK 确认 消息 ) ,就 要 把 慢 启动 阔 值 ssthresh 设置 为 出 现 拥 塞 时 的 发 送 端 窗口 值 的 一 
半 ( 但 不 能 小 于 2) ,然后 把 拥塞 窗口 的 大 小 cewnd 重新 设置 为 1 ,再 开始 执行 慢 启动 算法 。 


而 在 QUIC 协议 中 ,拥塞 控制 机 制 具有 以 下 新 特性 ， 

> 支持 可 插 拔 的 拥塞 控制 算法 :可 以 在 不 停机 的 情况 下 灵活 地 局 动 . 变 更 和 停止 拥塞 控 
制 算 法 ,应 用 进程 可 在 不 需要 内 核 文 持 的 情况 下 局 用 不 同 的 控制 算法 。 

> 精细 的 拥塞 控制 算法 实施 粒度 : 文 持 同一 进程 在 不 同 QUIC 连接 情况 下 采用 不 同 的 拥 
塞 控 制 算法 。 

> 以 Packet 为 传输 单位 :对 比 TCP 中 以 字 节 为 单位 的 流传 输 方 式 ,QUIC 是 以 Packet 为 
单位 传输 数据 的 ,每 个 Packet 都 有 有 目 己 的 Packet Number, 上 是 Packet 的 大 小 不 会 超过 
MTU ,这 更 像 UDP 的 传输 方式 。 

> 单调 递增 的 Packet Number .类 似 于 TCP 报 文中 的 Sequence Number 来 保证 消息 的 有 
序 性 。 但 是 Packet Number 严格 递增 ,即使 杂 个 包 丢 失 了 , 重 传 的 包 的 序号 也 是 大 于 
当前 Packet Number 的 ,可 谓 “ 既往 不 符 ”。，Packet Number 的 单调 递增 解决 了 TCP 重 
传 的 政 义 性 。 

> 采用 Stream Offset 保证 数据 的 顺序 性 和 有 序 性 :在 QUIC 中 Stream 相当 于 一 条 HTTP 
请 求 ,对 于 Stream 而 言 ,传输 的 单位 是 Packet。QUIC 采用 Stream Offset 来 保证 数据 的 
顺序 性 和 有 序 性 ,因为 Packet Number 是 “不 回头 ”的 ,如 果 发 生 重 传 ,发送 端 就 不 会 知 
道 到 底 要 重 发 哪 一 个 Packet ,因此 只 能 用 Stream Offset 来 代表 流 数据 的 偶 移 以 你 证 数 
据 的 顺序 性 。 

> 更 加 精确 的 时 间 统 计 : 在 TCP 方式 下 ,ACK 回 送 时 只 是 将 SYN 中 的 时 间 惟 传递 进去 ， 
并 没有 计算 接收 端 处 理 SYN 和 发 送 ACK 之 间 的 时 间 间 隔 , 因 此 存在 "ACK Delay 的 
时 间 空 际 。QUIC 协议 没有 忽略 这 个 间 际 ,因此 在 QUIC 中 RTT( Round-Trip Time , 往 
返 时 延 ) 也 将 这 一 部 分 时 间 算 了 进去 ,如 图 23 -32 所 示 。 


Seq N 
发 送 时 间 点 : 
timestamp 1 

上 ACK 

Delay 
ACK N+l 服务 端 回 显 时 间 : 
发 送 时 间 点 : tmestamp1] 
timestamp2 


23 一 32 TCP 中 的 ACK Delay 与 QUIC 中 的 RTT 


3) 基于 Stream 和 Connection 级 别 的 流量 控制 机 制 


Connection 可 以 看 作 一 条 TCP 连接 ,因此 可 以 认为 Connection 是 四 层 的 ,Stream 是 五 层 


及 以 上 的 。QUIC 要 文 持 多 路 复 用 ,其 实 就 是 基于 一 条 Connection 上 面 多 路 的 Stream 而 言 
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的 。QUIC 的 流量 控制 既 可 以 对 单条 Stream 进行 流量 控制 ,也 可 以 对 所 有 的 Stream 进行 流 
量 控制 。 在 Connection 中 ,有 一 个 专门 的 流 (Stream ID =1) 用 于 执行 握手 协商 。 

4) 没有 队 头 阻塞 的 多 路 复 用 机 制 

在 TCP 中 , 当 有 数据 丢失 时 , 哪 介 只 丢 了 一 个 字 节 ,也 要 等 竺 重 传 ,因而 导致 后 面 的 数据 
被 阻塞 住 。TLS 协议 也 存在 同样 的 问题 ,虽然 是 以 Record 为 处 理 单位 ,但 加 密 往往 跨越 多 个 
Record , 即使 其 中 只 丢失 了 一 个 字 节 也 无 法 正常 解密 。 上 述 这 种 情况 被 称 为 * 队 涉 阻 塞 ”。 

但 在 QUIC 协议 中 传输 的 基本 单元 是 Packet, 整个 认证 和 加 密 也 都 是 基于 Packet 的 | 
不 会 跨越 多 个 Packet 加 密 , 因 此 即使 丢 包 也 只 需要 重 传 这 一 个 问题 Packet, 其 他 的 包 不 依赖 
于 这 个 Packet 也 可 以 正常 解密 。 而 且 一 个 Connection 上 的 Stream 彼此 之 间 是 独立 的 ,不 存 
在 依赖 关系 ,于 了 由 重 传 问 题 Packet 就 行 了 ,后 续 的 Packet 该 怎么 接收 还 怎么 接收 ,因此 也 
不 存在 队 头 阻塞 问题 。 此 外 由 于 QUIC 支持 前 向 纠 错 (FEC) 机 制 ,因此 即使 有 少量 的 丢 包 ， 
在 接收 并 完全 可 以 基于 这 种 机 制 计算 出 丢失 的 数据 ,不 需要 重 传 ,减少 了 阻 窗 的 发 生 。 

5 ) 数据 加 密 机 制 

TCP 报 文 尖 部 并 没有 任何 加 密 或 认证 措施 ,这 样 做 虽然 你 证 了 解析 效率 ,但 也 确实 存在 
安全 隐患 ,因此 监听 到 的 都 是 明文 ,很 容易 实施 中 间 人 攻击 。 

QUIC 协议 内 置 了 TLS 协议 栈 ,以 此 实现 了 传输 层 加 密 。 对 于 绝 大 部 分 报 文 , 头 部 需要 
经 过 认证 (QUIC 报 文 头 市 有 认证 字段 ) , 报 文 体 整体 需要 经 过 加 密 。 其 中 加 密 采 用 了 初始 密 
钥 和 会 话 密 钥 的 两 级 密 钥 协 商机 制 : 

> 初次 连接 时 不 加 密 ,但 开始 协商 初始 密 铀 ; 

> 竺 初始 密 钥 协商 完毕 ,马上 协商 会 话 密 钥 ; 

> 通信 过 程 中 接收 端 可 以 根据 需要 更 新 密 钥 ,更 新 时 会 采用 新 旧 两 种 密 钥 解密 ,解密 成 

功 的 密 钥 才 会 被 保 留 , 否 则 即使 是 新 密 钥 也 不 会 更 新 (数据 可 用 性 优先 )。 

6) 连接 迁移 

与 TCP 不 同 , QUIC 协议 采用 一 个 由 客户 端 随机 产生 的 64 位 随机 数 作为 连接 ID 
(UUID ) ,而 不 再 采用 四 元 组 ( 源 IP 地 址 \、 源 端口 号 、 目 的 卫 地 址 、 目 的 端口 号 ) 这 种 第 三 或 
第 四 层 协 议 的 特征 标识 来 识别 一 条 连接 。 因 此 其 中 任何 一 个 元 素 发 生变 化 时 (例如 从 Wi-Fi 
切换 到 4G 或 者 NAT 穿 透 时 端口 动态 变化 ) ,这 条 连接 依然 维持 有 效 ,能够 保持 业务 逻辑 不 
中 断 , 对 于 应 用 程序 是 无 感 的 ,不 需要 重新 建立 连接 。 

7) 前 回 纠 错 

QUIC 协议 中 每 个 数据 包 除 了 包含 它 本 映 的 内 容 之 外 ,还 包含 了 部 分 其 他 数据 包 的 数 
据 ,因此 少量 的 丢 包 可 以 通过 其 他 包 的 元 余数 据 且 接 计算 出 来 而 无 需 重 传 ,这 种 机 制 也 被 称 
为 前 问 纠 错 (Forward Error Correction ,FEC) 。 目 前 默认 每 发 送 10 个 数据 包 就 包含 一 个 元 余 
包 , 其 多 余数 据 可 以 重新 构建 一 个 丢失 的 数据 包 。 

2. QUIC 报 文 结构 

QUIC 报 文 分 为 报 文 头 (也 被 称 为 公共 包头 ) 和 报 文 体 两 部 分 , 报 文 头 结构 如 图 23 -33 
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所 示 , 具 有 认证 字段 ; 报 文体 全 部 加 密 ,保证 了 信息 的 私密 性 。 
QUIC 报 文 分 为 普通 报 文 和 特殊 报 文 两 种 形式 ,而 前 者 又 细 分 为 帧 报 文 和 FEC 报 文 ;后 
者 则 细 分 为 版 本 协商 报 文 (Version Negotiation Packet ) 及 公共 重 置 报 文 (Public Reset 


Packet ) 。 
Flags(8) Connection ID(64)( 可 选 ) Version(32)( 可 选 ) 


Diversification Nonce(250) Packet Number(8—48) 


图 23 一 33 QUIC 报 文 头 结构 (单位 .位 ) 


> Flags: 用 于 说 明 QUIC 报 文 的 性 质 和 其 他 字段 的 大 小 ,具体 用 法 如 下 : 
e。 0x01(PUBLIC_FLAG_VERSION ) 表示 版 本 协商 报 文 : 
e 0x02(PUBLIC_FLAG_RESET) 表示 公共 重 置 报 文 ， 
e 0x04 表示 报 文 涉 包含 了 32 字 节 的 Diversification Nonce 
e。 0x08 表示 报 文 头 中 包含 了 64 位 的 Connection ID ,该 标志 位 在 所 有 的 报 文 中 都 应 
该 被 设置 ; 
。 0x30 表示 字段 占用 6 个 字 节 ; 
。 0x20 表示 字段 占用 4 个 字 节 ; 
。 0x10 表示 字段 占用 2 个 字 节 ; 
e。 0x00 表示 字段 占用 1 个 字 刷 ; 
e 0x40 为 多 路 径 使 用 保留 ; 
e。 0x80 当前 未 使 用 , 且 必 须 被 设置 为 0。 

> Connection ID: 这 是 一 个 由 客户 端 随机 选择 的 最 大 长 度 为 64 位 的 无 符号 整数 ,其 长 
度 也 可 以 为 0.8 或 32 位 。 

> Version :该 值 为 可 选 字 段 , 代 表 了 QUIC 协议 的 版 本 号 ,长 度 为 32 位 。Version 一 般 出 
现在 协商 的 第 一 个 包 中 ,用 于 确保 服务 端 可 以 保持 与 客户 端 规定 的 版 本 的 一 致 性 。 

> Diversification Nonce :由 4 字 节 的 时 间 惟 .8 字 节 的 服务 器 轨道 和 20 字 节 的 随机 数组 


9 


成 的 32 字 节 的 随机 数 。 
> Packet Number :其 长 度 由 Flags 定义 ,普通 报 文 由 发 送 者 分 配 包 号 ,特殊 报 文 则 由 接 
收 者 分 配 包 号 e 


QUIC 报 文 体 (Packet) 由 帧 (Frame) 组 成 , 报 文 体 可 以 包含 多 个 帧 , 而 帧 具体 分 为 : 流 帧 
(STREAM) .ACK 帧 .停止 等 待 帧 (STOP_WAITING) 窗口 更 新 帧 (WINDOW_UPDATE ) 、 拥 
塞 信息 帧 (BLOCKED) .拥塞 反馈 帧 (CONGESTION_FEEDBACK) .填充 帧 (PADDING) . 重 置 
流 帧 (RST_STREAM) .连接 关闭 帧 (CONNECTION_ CLOSE ) 和 Ping 帧 。 无 论 一 个 Packet 由 
多 少 帧 构成 , 帧 都 不 能 跨越 Packet。 

上 述 类 型 的 帆 又 可 分 为 特殊 帧 和 律 规 帧 两 类 。 特 殊 帆 在 Type 字段 中 同时 编码 了 巾 类 
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型 和 相应 的 标志 位 ;而 常规 巾 只 是 编码 了 帧 类 型 。 除 了 最 第 见 的 流 帧 ,ACK 帧 和 拥塞 反馈 帧 
都 是 特殊 帧 ,其 余 的 帧 则 都 是 常规 帧 。 
> 流 帧 :用 于 承载 多 路 复 用 流 的 应 用 数据 , 即 隐 式 创建 流 和 发 送 流 数据 。 
> ACK 帧 :用 于 通知 发 送 端 有 哪些 帧 已 经 被 接收 端 接收 或 者 哪些 帧 没有 被 接收 端 
收 到 。 
> 停止 等 待 帆 :用 于 通知 对 端 不 再 等 待 小 于 指定 包 序号 (Packet Number) 的 包 , 包 序号 的 
长 度 可 以 是 1.2、4.6 字 节 。 
> 窗口 更 新 帧 :用 于 通知 对 端 本 端的 流量 控制 的 接收 窗口 的 扩容 增长 情况 。 
> 拥塞 信息 帧 ;用 来 通知 接收 端 本 问 有 数据 需要 发 送 ,并 且 已 经 准备 好 发 送 数 据 了 ,但 
被 流量 控制 所 阻塞 。 
> 拥塞 反馈 帧 :这 是 个 实验 性 质 的 帧 ,当前 没有 被 使 用 ,其 目的 是 在 标准 的 ACK 帧 范围 
之 外 提供 额外 的 拥塞 反馈 信息 。 
> 填充 帧 :填充 帧 包含 0x00 的 字 节 ,用 于 填充 QUIC 包 的 末尾 。 当 直到 了 填充 帧 ,该 包 
的 剩余 部 分 部 是 填充 帆 。 
> 重 置 流 帧 :用 于 关闭 一 个 流 。 当 该 帧 由 流 创 建 者 发 送 时 ,表示 创建 者 希望 取消 这 个 
流 ; 当 该 帧 由 流 接收 端 发 送 时 ,表示 接收 端 发 生 了 一 个 错误 ,或 不 希望 接受 这 个 流 而 
应 关闭 。 
> 连接 关闭 帧 :用 于 通知 连接 被 关闭 。 如 果 还 有 流 在 传输 ,所 有 这 些 流 都 被 隐 式 关闭 。 
> Ping 帧 :用 于 验证 对 端 是 否 还 存活 。 接 收 端 需要 返回 这 个 包 的 确认 包 。 当 流 被 打开 
时 ,需要 用 Ping 帧 来 保证 连接 活跃 。Ping 帧 上 没有 负载 信息 。 
上 述 每 种 类 型 的 帧 结构 都 是 不 一 样 的 ,例如 用 于 创建 流 和 发 送 数据 的 流 帧 需要 带 有 与 
流 相关 的 属性 ( 如 Stream ID .Offset 等 如 图 23 一 34 所 示 ) ， 而 停止 等 待 帧 则 不 需要 摘 述 流 信 
昌 ,只 雷 要 摘 述 与 Packet Number 相关 的 信息 即 可 。 


Frame Frame Frame 


Es 
一 
mm 
es 


— 


ee Stream Frame 


Type(8) stream 1D(8— Offset(0— 
Stream Data(data length) 


图 23 -34 ”QUIC 流 帧 的 结构 (单位 :位 ) 


最 后 需要 注意 的 是 ,QUIC 报 文 的 大 小 需要 满足 MTU 的 上 限 以 避免 被 分 片 ,因此 报 文 的 
大 小 在 IPv4 下 最 大 为 1 370 字 有 ,在 IPv6 下 最 大 为 1 350 字 节 。 

3. QUIC 的 握手 协商 流程 

QUIC 协议 相当 于 TCP + TLS + HTTP2.0 ,而 其 握手 的 过 程 则 是 TLS 过 程 的 体现 。 但 这 
里 要 明确 的 是 ,QUIC 的 连接 建立 与 握手 协商 是 两 个 层面 的 事情 ,QUIC 要 先 建立 连接 ,在 此 
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连接 基础 之 上 再 进行 握手 协商 。 

QUIC 在 握手 过 程 中 使 用 了 Diffie-Hellman 算法 协商 初始 密 钥 。 初 始 密 钥 依赖 于 服务 端 
事先 存储 的 一 组 配置 参数 , 且 这 组 参数 会 周期 性 地 刷新 。 初 始 密 钥 协商 成 功 后 ,服务 端 会 再 
提供 一 个 临时 随机 数 ,通信 双方 根据 这 个 随机 数 再 生成 会 话 密 钥 。 在 整个 会 话 过 程 中 ,由 于 
会 话 密 钥 也 依赖 于 初始 密 钥 ,因此 会 话 密 钥 也 会 周期 性 地 刷新 。 

QUIC 的 握手 过 程 比 较 复 杂 ,可 以 根据 客户 端 是 否 已 知 服务 端的 全 部 配置 参数 来 区 分 对 
待 握手 流程 ,分 别 如 图 23 -35 和 23 一 36 所 示 。 

1) 客户 端 已 缓存 服务 端的 全 部 配置 参数 

(1) 客户 端 问 服务 端 发 送 Complete Client Hello( CHLO ) 消息 ,该 消息 中 包括 了 客户 病 选 
择 的 公开 数 。 这 一 阶段 客户 端 根据 服务 端的 全 部 配置 参数 和 自己 所 选 的 公开 数 可 以 计算 出 

(2) 服务 病 收 到 Complete Client Hello ( CHLO ) 消息 后 , 如果 不 同意 就 回复 Rejection 
(REJ ) 消息 ,该 消息 包括 了 部 分 服务 端的 配置 参数 。 

(3) 服务 端 如 果 同 意 , 则 根据 客户 端 选择 的 公开 数 计算 出 初始 密 钥 。 之 后 加 客户 端 回 
复 Server Hello(SHLO ) 消息 ,该 消息 采用 初始 密 钥 加 密 , 其 中 也 包含 了 服务 端 选 择 的 一 个 临 
时 公开 数 。 

(4) 客户 端 如 果 收 到 服务 端的 REJ 消息 , 则 提取 并 存储 服务 端的 配置 参数 。 


(5) 客户 闯 如 采 收 到 服务 产 的 SHLO 消息 , 则 答 试 基于 初始 密码 进行 解密 并 提取 出 临 
时 公开 数 。 
客 叫 剖 服务 端 


握手 成 功 时 ， 服 务 器 将 返回 自己 的 hello 消 息 (SHLO) 


客户 端 绥 存 之 前 的 握手 ， 用 于 之 后 的 连接 过 得 


BO 二 春 ) 端 TS 方式 初始 化 数据 
一 子 序列 数据 采用 前 向 安全 密 钥 方式 
图 23 -35 已 缓 存 配置 参数 时 的 握手 流程 


(6) 客户 端 与 服务 端 各 自 根 据 临 时 公开 数 和 初始 密 钥 并 基于 SHA-256 算法 推导 出 会 话 

(7) 双方 刷新 密 钥 为 会 话 密 钥 ( 此 时 初始 密 钥 可 以 丢弃 ) ,后 续 的 通信 过 程 使 用 会 话 密 
钥 。 至 此 握手 过 程 完 毕 。 

2) 客户 端 未 缓存 服务 端的 全 部 配置 参数 或 只 缓存 了 一 部 分 
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(1) 客户 端 要 向 服务 端 发 送 Inchoate Client Hello( CHLO) 消息 以 获取 服务 端的 全 部 配 
置 参 数 。 

(2) 服务 端 收 到 CHLO 消息 后 回复 Rejection (REJ) 消息 ,其 中 包含 了 服务 端的 配置 

(3) 客户 端 收 到 REJ 消息 后 提取 并 存储 服务 端的 配置 参数 。 

(4) 接 下 来 的 流程 与 客户 问 已 缓存 服务 病 的 全 部 配置 参数 时 的 流程 一 致 。 

可 以 看 出 ,这 种 情况 下 首先 需要 获取 和 补 齐 服务 端的 全 部 参数 ,之 后 的 流程 就 与 已 知 全 
部 参数 的 情况 一 致 了 。 


客户 站 服 劳 问 
客户 端 首先 发 送 一 个 不 完整 的 CHLO 消 息 


服务 端 拒绝 该 请 求 ， 并 在 拒绝 请 求 中 附 市 以 下 应 信息 : 
一 服务 端 配置 诸如 Diffie-Hellman( 一 种 密 钥 协商 算法 ) 
一 服务 问 认 证 的 证 书 链 

一 带 有 客户 端正 的 加 密 认 证 块 


1-RTT 握 手 
图 23 -36 未 缓存 配置 参数 时 的 握手 流程 


23.2.3 UDIT 


UDT 是 一 种 基于 UDP 的 互联 网 传输 层 协议 (UDP-based Data Transfer Protocol ) ,其 产生 
的 背景 是 局 宙 客 和 长 距离 网 络 ( 例 如 互联 网 ) 上 TCP 性 能 不 佳 、 市 宽 利 用 诗 低 ,因此 需要 一 
种 在 高 BDP( 市 宽 时 延 乘 积 , 即 每 秒 比特 与 来 回 通 信 延 开 的 乘积 ,是 网 络 性 能 指标 之 一 ) 网 络 
下 具有 良好 传输 性 能 和 高 禹 宽 利 用 率 的 传输 层 协议 。 高 BDP 网 络 ( High-Bandwidth-Delay- 
Product Network ) 代表 了 融 市 名 .高 延 时 的 网 络 ,比如 互联 网 ,这 种 网 络 也 被 称 为 长 肥 网 络 
(Long Fat Network ,LEN ) 。 
现 有 的 TCP 拥塞 控制 机 制 在 高 BDP 网 络 下 的 表现 并 不 理想 : 
> TCP 拥塞 控制 机 制 在 BDP 网 络 下 拥塞 窗口 小 并 且 增 长 缓慢 。 
> TCP 的 AIMD(Additive Increase Multiplicative Decrease ,加 性 增 大 乘 性 减 小 ) 拥 塞 控 制 
算法 对 于 拥 窗 窗口 的 下 降 比 较 过 激 , 却 不 能 较 快 地 恢复 到 窗口 的 高 位 值 以 恢复 市 党 。 
> TCP 拥塞 控制 算法 在 高 BDP 网 络 下 RTT 公平 性 较 差 ,严重 影响 了 拥塞 窗口 的 增长 。 
在 这 样 的 育 景 下 ,一 种 基于 UDP 的 . 谏 纳 和 改进 了 TCP 拥 窒 控制 且 开 源 和 双 工 的 传输 
层 协议 被 提出 了 ,这 就 是 UDT。UDT 具有 以 下 明显 的 特点 和 优势 : 
> 新 的 拥塞 控制 算法 :在 新 算法 中 , 慢 司 动 阶段 可 快速 扩张 拥塞 窗口 以 抢占 审 宽 ,接近 
饱和 状态 时 逐渐 降低 窗口 增长 速度 并 趋 于 稳定 ,这 是 一 种 基于 增长 速率 的 拥塞 控制 
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> 可 扩展 的 拥塞 控制 算法 框架 :可 以 对 不 同 的 拥塞 控制 算法 做 适 配 ,应 用 进程 可 以 月 定 
义 和 派 生 拥 塞 控 制 类 。 
> 传输 可 靠 性 机 制 .与 TCP 类 似 , 依 徘 包 序号 .ACK 序号 、 接 收 端 ACK 啊 应 和 丢 包 报 告 、 
丢 包 重 传 等 机 制 实 现 了 传输 可 徘 性 。 
> 支持 数据 流 和 数据 报 两 种 传输 方式 :UDT socket 支持 SOCK_Stream 和 SOCK_Degram 
两 种 类 型 ,前 者 可 徘 ,后 者 部 分 可 徘 。 
> 支持 点 对 点 防火墙 穿 透 等 穿 透 特 性 :这 一 点 与 UDP 是 一 样 的 。 
> 面向 连接 的 保 活 机 制 :UDT 是 基于 握手 机 制 (Shakehand) ,心跳 保 活 机 制 (Keepalive ) 
和 连接 关闭 机 制 的 逻辑 通过 。 
> 基于 定时 器 进行 数据 包 发 送 和 确认 :与 TCP 需要 等 待 ACK 确认 包 后 再 行 发 送 不 同 ， 
UDT 基于 定时 需 进 行 发 送 ,也 基于 定时 需 实 现 UDT 包 确 认 。 
> 不 同 的 流量 控制 机 制 .在 拥 窗 窗口 大 小 和 当前 可 用 的 接收 缓冲 区 大 小 之 间 选 取 最 小 
值 作为 发 送 窗口 大 小 ,尽力 确保 发 送 和 接收 都 不 溢出 。 
> 支持 市 宽 估 计 特 性 .使 用 对 包 ( Packet Pair) 机 制 估计 市 宽 。 
e。 对 包机 制 宕 要 发 送 闹 连续 发 送 两 个 相同 大 小 的 包 , 接 收 端 收 到 后 会 根据 包 的 间隔 
来 计算 链 路 市 宽 , 因 为 发 送 时 每 16 个 包 为 一 组 ,所 以 只 有 最 后 两 个 是 对 包 ( 即 16 
号 和 17 三 包 ) 。 
。 发 送 疹 无 需 等 到 下 一 个 发 送 周 期 再 发 送 ,接收 疹 接 收 到 对 包 后 记录 到 达 时 间 ,并 
结合 上 次 记录 的 值 计算 出 链 路 的 审 宽 ,这 个 市 宽 会 在 下 一 个 ACK 确认 包 中 反馈 。 
1. UDT 的 软件 架构 
UDT 的 软件 架构 如 图 23 -37 所 示 。 可 以 看 
出 ,UDT 是 基于 UDP 的 , 且 UDT 的 支撑 库 是 基于 
操作 系统 socket 机 制 的 ,也 就 是 说 对 UDP socket 
做 了 一 层 封 装 形成 了 UDT socket 以 供应 用 进程 调 
用 。 蹇 控制 ( Congestion Control, CC ) 模块 与 UDT 实 现 库 
UDT socket 和 UDT 实现 库 进 行 交 五。 | 
2. UDT 的 接收 与 发 送 
拷贝 到 Sender 缓冲 区 ,Sender 再 将 其 发 送 
给 UDP 通道 。 23 -37 ”UDT 的 软件 架构 
> 数据 接收 : Receiver 从 底层 UDP 通道 获取 
数据 包 并 拷贝 到 Receiver 缓冲 区 。 此 时 要 对 效 据 进行 重 新 排序 ( Rerank ) 以 查看 是 否 
有 数据 包 于 失 。Receiver 也 会 处 理 控制 包 当 接 收 到 NAK 控制 报 文 后 会 更 新 
Receiver 和 Sender 的 LostList 并 触发 相应 的 事件 ( 如 拥塞 控制 等 ke 
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内 存 拷贝 党 路 


从 图 23 一 38 可 以 看 出 : 拥 考 控制 模块 与 Sender 和 Receiver 交互 ,Recelver 佰 责 触发 和 处 
理 所 有 的 控制 事件 ( 如 拥 窄 控制、 可 徘 性 控制 等 ) ,并 将 这 些 事 件 回 调 给 拥 紧 控制 模块 ,以 便 
于 对 Sender 进行 流量 控制 。 拥 窗 控 制 模块 包含 了 面 和 铝 用 户 的 回调 阴 数 集合 ,用 于 人 处理 上 述 
不 同 的 控制 事件 。 为 了 减少 处 理 时 间 , 内 存 拷贝 绕 过 了 UDT 支撑 层 模块 ,而 是 耳 接 发 生 于 
UDP socket 和 UDT socket 之 则 。 
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图 23-38 ”UDT 的 收发 流程 


Lost List 用 于 存储 丢失 的 包 的 序列 号 ,这些 序列 号 来 源 于 接收 端 发 送 的 NAK 包 的 压缩 
信息 或 者 超时 事件 里 的 超时 包 序 号 。 因 此 ,与 TCP 采用 ACK 包 确 认 已 收 到 包 的 机 制 不 同 ， 
UDT 采用 NAK 包 来 确认 未 收 到 的 包 ( 并 不 代表 UDT 不 使 用 ACK 包 ) 。 

UDT 使 用 ACK 和 NAK 机 制 来 正 回 和 反 回 激励 发 送行 为 。 例 如 在 收 到 ACK 包 时 意味 
着 正 向 激励 ,此 时 可 以 提高 发 送 速度 ;反之 ,如 果 收 到 了 NAK 包 , 则 意味 着 反 向 激励 (有 些 包 
没收 到 ,也 许 是 因为 拥塞 导致 的 丢 包 ) ,此 时 应 该 降低 发 送 速 度 。 当 然 UDT 的 调整 不 会 在 收 
到 ACKZNAK 包 时 立即 执行 ,而 是 在 每 10 ms 触发 一 次 的 定时 器 事件 中 执行 的 。 

3. UDT 的 连接 与 关闭 

UDT 的 连接 分 为 两 种 模式 , 即 C/S 模式 和 会 合 连接 (Rendezvous Connection ) 模式 。 

1) C/S 模式 

这 种 方式 类 似 于 TCP 方式 , 即 启动 监听 主动 连接 和 被 动 接 受 的 方式 ,其 步骤 如 下 .: 

(1) 作为 服务 端的 UDT 实体 首先 启动 监听 。 此 时 服务 端 可 以 接受 和 处理 对 端 UDT 实 
体 的 连接 请 求 , 并 为 新 创 连接 生成 一 个 新 的 UDT socket。 

(2) 客户 疹 连 接 服务 端 。 首 先 发 送 握手 请 求 控制 报 文 ,客户 端 以 固定 周期 的 方式 发 送 
握手 请 求 控制 报 文 ,直到 接收 到 服务 冰 的 握手 请 求 回 复 或 者 超时 结束 。 

(3) 服务 端 接收 到 客户 端的 连接 请 求 后 ,根据 密 铀 和 客户 端 的 地 址 产生 一 个 Cookie ,并 
将 该 Cookie 返回 给 客户 端 ,后 续 客 户 端的 所 有 请 求 都 要 携带 该 Cookie。 

(4) 服务 端 接收 到 步骤 (3) 返 回 的 携带 正确 Cookie 的 握手 请 求 控制 报 文 后 会 分 别 比较 
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以 下 两 组 值 : 
> 握手 报 文 数据 包 的 大 小 与 日 身 设 置 的 数据 包 大 小 
> 握手 报 文 滑动 窗口 大 小 与 日 身 设 置 的 滑动 窗口 大 小 
之 后 取 它 们 之 中 的 最 小 值 保留 为 实际 使 用 值 , 再 连同 服务 闪 版 本 号 初始 数 据 包 序列 号 
等 一 并 返回 给 客户 端 。 
(5) 完成 握手 啊 应 后 ,服务 端 就 准备 传输 数据 了 。 
> 在 传输 过 程 中 , 知 收 到 从 同一 个 客户 端 发 过 来 的 保持 连接 的 握手 请 求 ,服务 端 就 必须 
回复 应 答 控 制 报 文 (客户 站 也 一 样 ) 。 
> 客户 端 接收 到 服务 端的 握手 应 答 探 制 报 文 后 也 会 准备 传输 数据 。 
> 男 外 客户 端 也 会 检查 服务 端 是 否 和 期 望 接受 请 求 的 服务 并 一 致 。 
如 图 23 -39 所 示 是 握手 请 求 控制 报 文 所 携 市 的 内 容 。 
: UDT 版 本 号 : 默认 是 4， 表 示 支 持 的 协议 
socket 类 型 ; 流 类 型 为 0 ; 数据 包 类 型 为 1 
“初始 数据 包 序号 : socket 发 出 的 第 一 个 数据 包 的 序号 ， 是 个 随机 值 


最 大 包 大 小 : 数据 包 长 度 的 最 大 值 ， 这 个 值 的 涵盖 范围 是 从 以 太 帧 
帧 头 到 数据 包 内 容 结束 ， 因 此 通常 为 MTU 大 小 


Ep 芝 E15" 最 大 流量 窗口 大 小 : 非 必需 的 ， 可 用 于 UDT 的 参考 实现 
连接 类 型 : 用 于 区 分 连接 模式 和 保持 连接 的 请 求 类 型 
socket ID : 表示 客户 端 UDT 的 socket ID 
Cookie : 用 于 防范 SYN Flood 攻 击 : 
目的 端 地 址 
图 23 -39 握手 请 求 控制 报 文 所 携带 的 内 容 


2) 会 合 连接 模式 

会 合 连接 模式 也 被 称 为 聚合 模式 或 P2P 模 却 ,在 这 种 模式 下 通信 双方 都 是 客户 冰 ,都 会 
主动 问 对 内 发 起 连接 请 求 , 而 每 一 产 也 和 都 有 能 力 接受 连接 请 求 。 因 此 这 种 方式 有 利于 私 网 
宇 透 或 防火 墙 穿 透 。 其 过 程 如 下 : 

(1) 通信 双方 同时 向 对 端 发 起 连接 请 求 ,发 送 握手 请 求 控制 报 文 。 

(2) 各 器 对 收 到 的 握手 请 求 控制 报 文 进行 检查 ,检查 的 内 容 和 过 程 如 C/S 模式 中 的 步 
又 (4) 和 (5) ,各 端 只 处 理 对 问 发 过 来 的 请 求 ,不 相关 方 发 过 来 的 连接 请 求 会 被 忽略 。 

(3) 验证 检查 通过 后 初始 化 连接 。 

会 合 连接 模式 下 没有 服务 并 的 说 法 ,各 并 部 是 客户 并 , 痢 是 对 等 的 。 

UDT 关闭 的 步骤 就 比较 简单 了 。 当 已 经 建立 UDT 连接 的 一 个 实体 关闭 连接 时 , 它 将 回 
对 闯 实 体 发 送 一 个 关闭 消息 ,目标 UDT 实体 在 接收 到 关闭 消息 后 也 关闭 连接 。 另 外 ,如 采 
目标 实体 在 连续 16 个 EXP 超时 事件 之 后 仍 未 收 到 关闭 连接 的 消息 , 则 会 目 己 主动 关闭 


连接 。 
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4. UDT 定时 器 

UDT 定时 带 分 为 4 种 类 型 ,用 于 和 触发 不 同 的 周期 性 事件 ,而 且 这 些 事件 是 相对 独立 的 ， 
也 都 以 系统 时 间作 为 参考 源 。UDT 定时 需 是 与 UDT socket 绑 定 对 应 的 ,这 4 种 定时 需 分 
别 为 : 

1) ACK 定时 器 

这 种 定时 占用 于 触发 接收 端的 ACK 事件 ,其 时 钟 周 期 是 由 拥塞 控制 模块 设置 的 。 但 即 
使 拥塞 控制 不 需要 基于 定时 器 的 ACK,UDT 也 会 在 不 超过 10 ms 的 间隔 时 间 内 发 送 一 个 
ACK 包 。 这 个 10 ms 被 定义 为 SYN 时 间 ( 或 叫 同步 时 间 ) , 且 这 个 时 间 影 啊 厦 其 他 的 UDT 

2) NAK 定时 器 

这 种 定时 硕 用 于 和 触发 接收 闪 的 否定 应 答 事件 。NAK 定时 希 的 时 钟 周期 会 动态 地 更 新 。 

3) EXP(Expire) 定 时 天 

这 种 定时 融 用 于 触发 接收 闪 的 数据 包 重 传 请 求 以 及 连接 状态 维护 ,其 时 钟 周期 也 会 动 

4) SND(Send) 定时 需 

这 种 定时 融 用 于 发 送 端 处 理 基 于 速率 机 制 的 包 发 送 。UDT 调整 发 送 速率 的 固定 周期 一 
般 为 10 ms , 当 收 到 ACK 包 时 会 认为 是 正 辐 激励 从 而 提升 发 送 速度 , 当 收 到 NAK 包 时 会 认 
为 是 反问 激励 进而 降低 发 送 速 度 。 

5. UDT 多 路 复 用 

UDT 的 多 路 复 用 通俗 地 说 就 是 多 个 并 发 的 UDT 连接 共享 一 个 UDP 端口 。 每 个 连接 根 
据 UDT 包头 的 socket ID 来 区 分 ,接收 到 的 具有 不 同 socket ID 的 UDT 包 会 被 分 发 到 对 应 的 
UDT socket 中 。UDT 维护 了 发 送 和 接收 两 个 队列 。 

1 ) 发 送 队 列 

发 送 队 列 包 含 了 计划 发 送信 息 包 的 socket 链表 ,这 个 链表 上 的 每 个 socket 必须 包含 至 
少 一 个 计划 发 送 的 信息 包 ( 如 果 socket 不 包含 计划 发 送 的 信息 包 就 没有 必要 加 入 发 送 队 列 
中 了 ) , 且 socket 按照 将 要 发 送 的 信息 包 的 发 送 时 间 进 行 排序 。 

发 送 队 列 也 维护 了 一 个 高 精度 的 定时 器 , 当 socket 所 包含 的 信息 包 的 发 送 时 间 到 达 时 ， 
队列 头 部 的 socket 包 会 被 发 送 ,之 后 便 会 从 头 部 将 该 socket 删除 。 当 然 如 果 socket 包含 了 
多 个 计划 发 送 的 信息 包 , 则 该 socket 又 会 被 按 发 送 时 间 的 顺序 重新 插 人 发送 队列 里 。 

2) 接收 队列 

接收 队列 读 取 收 到 的 信息 包 并 分 发 给 对 应 的 UDT socket, 如 果 目 标 socket ID 是 0, 则 信 
息 包 将 被 分 发 给 所 有 当前 正在 监听 的 socket。 

与 发 送 队 列 类 似 , 接 收 队 列 也 包含 了 等 得 接收 信息 包 的 socket 链表 。 如 果 队 列 中 的 每 
一 个 socket 的 SYN 间隔 时 间 到 期 ,接收 队列 会 检测 该 socket 的 每 一 个 定时 带 是 否 超 时 。 
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6. UDT 包 的 结构 
UDT 包 承 载 于 UDP 包 之 上 ,是 UDP 包 的 负载 。UDT 包 分 为 两 类 ;控制 包 和 数据 包 , 这 


两 类 包 是 通过 包头 的 第 一 位 来 区 分 的 ,控制 包 包头 的 第 一 位 为 1 ,数据 包 包头 的 第 一 位 为 0。 


1) UDT 控制 包 的 结构 
UDT 控制 包 的 结构 如 图 23 -40 所 示 。 


| pe | ExendedType 


Time Stamp 


| Destination Socket TD 


Control Information 


图 23 一 40 ”UDT 控制 包 结 构 


> Type: 占 1> 位 ,存在 8 种 有 效 的 控制 包 类 型 ,包括 : 
。 0x0 一 一 UDT 握手 协商 报 文 , 在 这 种 报 文中 Additional Info 未 定义 ,但 Control Info 
做 了 定义 , 即 上 文中 所 提 到 的 握手 请 求 控 制 报 文 所 携带 的 内 容 。 
® (Oxl UDT 心跳 保 活 报 文 ,在 这 种 报 文中 Additional Info 和 Control Info 都 未 
定义 。 
e 0x2 一 一 UDT 的 ACK 应 答 报 文 ,Additional Info 代表 了 ACK 的 Sequence Number， 
Control Info 则 包含 了 其 他 一 些 信 息 选项 ,例如 可 用 字 节 数 . 收 包 速率 等 。 


e Ox3 UDT 的 NAK 应 答 报 文 ,Additional Info 未 定义 , Control Info 则 包含 了 一 些 
信息 选项 。 
e Ox4 未 被 使 用 。 


e。 0x5 一 一 UDT 的 关闭 连接 报 文 ,Additional Info 和 Control Info 都 未 定义 。 

e 0x6 一 一 UDT 应 答 的 应 答 (ACK2 ) 报 文 , 即 对 ACK 的 确认 ,ACK 发 送 时 间 与 ACK2 

的 接收 时 间 可 以 用 于 估算 RTT。Additional Info 代表 了 ACK 的 Sequence Number， 

Control Info 未 定义 。 

Ox7 UDT 的 报 文 丢弃 请 求 报 文 ,Additional Info 代表 了 Message ID 消息 ID)， 

Control Info 则 代表 了 报 文 的 序列 号 。 

> Extended Type: 该 字段 的 内 容 取 决 于 Type 字段 的 控制 包 的 类 型 。 

> Time Stamp:UDT 的 相对 时 间 惟 ,表示 相对 于 UDT 连接 建立 时 所 消耗 的 时 间 。 该 域 
是 可 选 的 。 

> Destination Socket ID :UDT 的 目标 socket ID ,用 于 UDT 的 多 路 复 用 ,多 个 socket 被 绑 
定 到 一 个 UDP 端口 上 ,该 域 用 于 区 分 不 同 的 UDT 连接 。 

2) UDT 数据 包 的 结构 

UDT 数据 包 的 结构 如 图 23 -41 所 示 。 
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0 | Sequence Number 
Message \ Number 


a Socket ID 


图 23-41 UDT 数据 包 的 结构 


> Sequence Number :UDT 数据 包 的 序列 号 ,每 次 发 包 时 该 序列 号 累加 1。 
> Message Number :该 域 的 前 两 位 (FF ) 标 记 了 当前 包 在 整个 消息 包 中 的 位 置 
e。 10 一 一 表示 当前 包 是 消息 的 第 一 个 包 。 
。 01 一 一 表示 当前 包 是 消息 的 最 后 一 个 包 。 
。 11 一 一 表示 当前 包 是 消息 的 唯一 一 个 包 。 
。 00 一 一 表示 当前 包 是 消息 的 中 间 包 (不 在 头 也 不 在 尾 ) 。 
Message Number 的 第 三 位 表示 数据 包 应 该 以 顺序 (1) 还 是 以 乱 序 (0) 来 投递 ,所 谓 顺 序 
投 促 ， 即 当 前 包 投 递 时 位 于 它 之 前 的 排队 包 都 已 被 投递 或 丢弃 。 Message Number 的 后 29 位 
表示 消息 的 序列 号 。 
> Payload :表示 UDT 包 的 负载 。 


23.2.4 SSL/TLS/DTLS 


本 小 节 我 们 痢 重 讲述 传输 层 的 安全 机 制 及 其 最 篆 用 的 三 种 标准 协议 :SSL、TLS 和 
DTLS 。 

SSL( Secure Sockets Layer ,安全套 接 字 层 ) 是 一 种 确保 互联 网 上 连接 安全 .保护 敏感 数据 
的 标准 技术 。SSL 基于 TCP ,是 一 种 介 于 传输 层 (TCP) 与 应 用 层 之 间 的 安全 协议 。 一 般 来 说 
将 SSL(TLS 等 ) 归 为 传输 层 协 议 。 目 前 SSL 的 最 高 版 本 是 SSLv3.0。 

SSL 协议 的 框架 结构 如 图 23 -42 所 示 。 


SSL 握 手 协议 | SS 生生 人 |SSL 和 警报 协议 


测 沁 协议 


图 23-42 SSL 协议 的 框架 结构 
随 着 SSL 的 演进 , 当 更 新 到 SSLv3.0 版 本 时 ,IETF 对 这 个 版 本 的 SSL 进行 了 标准 化 和 有 
限度 的 增强 ,并 将 这 个 增强 版 本 更 名 为 TLS 1.0。TLS 又 被 称 为 传输 层 安 全 (Transport Layer 
Security ) 协议 ,因此 可 以 说 TLS 就 是 SSL 的 3.0 增强 版 本 (SSLv3. 1) ,两 者 的 框架 结构 也 是 
一 致 的 。 我 们 研究 TLS 其 实 就 是 研究 SSL 的 3.0 增强 版 本 ,因此 本 节 会 着 重 介 绍 TLS ,也 就 
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是 SSL 的 增强 版 本 ,而 SSL 所 用 到 的 框架 和 流程 的 图 示 对 于 TLS 也 同样 适用 。 
TLS 分 为 1.0、1.1 和 1.2 三 个 版 本 ,默认 使 用 TLSv1.0。SSL/ATLS 最 帝 见 的 应 用 是 
HTTP 通信 场景 ,HTTPS 实际 上 就 是 HTTP over SSLZTLS 。 
无 论 是 SSL 还 是 TLS 都 是 基于 TCP 的 ,因此 业界 迫切 需要 补 齐 针对 UDP 的 安全 套 接 字 
层 的 缺失 ,在 这 种 情况 下 DTLS( Datagram Transport Layer Security ,数据 报 传输 层 安全 ) 协议 
便 被 提出 来 了 。 其 架构 与 TLS 基本 一 致 ,只 是 DTLS 是 基于 UDP 的 , 除 此 之 外 包括 握手 交 
互 数据 加 密 、 吴 份 认 证 等 功能 基本 与 TLS 一 致 。 
1. TLS 
SSL/ATLS 协议 在 传输 层 上 封装 了 应 用 层 的 数据 ,这 意味 着 应 用 进程 模块 (例如 HTTP 
等 ) 基本 不 需要 做 修改 ,在 调用 socket API 的 时 候 参 数 也 基本 不 变 。 由 于 SSLZTLS 是 由 上 自己 
完成 吴 份 认证 与 数据 加 审 的 ,因此 上 层 的 应 用 进程 也 不 用 操心 这 些 事 。 只 是 基于 SSL/TLS 
进行 传输 的 HTTP 协议 不 再 使 用 80 端口 而 改 用 443 山口 了 ,这 个 妆 口 也 是 HTTPS 的 “著名 
SSLATLS 协议 从 逻辑 上 可 以 分 为 两 层 : 下 层 的 SSL/ATLS 记录 协议 (SSL/TLS Record 
Protocol) 层 和 上 层 的 SSLZTLS 握手 协议 (SSL/TLS Handshake Protocol) 层 , 如 图 23 一 43 所 示 。 
> SSL/TLS 记录 协议 层 : 建 立 在 TCP 协议 之 上 ,为 应 用 层 协议 提供 数据 封装 、 数 据 压 
缩 数据 加 密 等 安全 类 的 功能 文 持 。 
> SSL/TLS 握手 协议 层 :建立 在 记录 协议 层 之 上 ,用 于 在 传输 数据 之 前 进行 身份 认证 、 
加 密 算 法 协商 .加密 密 钥 交换 等 工作 。 


1. 应 用 进程 
socket | | SSLTLS | 
2. 传 输 层 oe 


23 -43 ”记录 协议 层 和 握手 协议 层 在 SSL/TLS 协议 中 的 位 置 
男 外 ,SSLATLS 协议 还 具有 以 下 特性 . 
> 应 用 层 协 议 可 以 透明 地 承载 于 SSLZTLS 协议 之 上 而 无 需 做 什么 改动 。 
> SSLZTLS 记录 协议 层 用 于 封装 和 加 密 高 层 协议 数据 的 密 钥 是 由 通信 双方 协商 出 
来 的 。 
> SSLZTLS 协议 在 正式 传输 数据 之 前 需要 进行 身份 认证 、 密 钥 协 商 和 密 钥 交换 等 工作 ， 
这 些 工 作 是 通过 握手 协议 完成 的 ,并 实现 了 以 下 目标 : 
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e 保密 性 :保密 性 是 通过 加 密 技 术 实现 的 ,第 三 方 无 法 破解 。 

e 完整 性 :通过 MAC 校 验 机 制 可 以 立即 发 现 报 文 算 改 。MAC( Message Authentication 
Code ,消息 认证 码 ) 就 是 带 密 钥 的 散 列 图 数 。MAC 是 基于 密 钥 和 消息 摘要 所 获得 
的 一 个 值 , 用 于 数据 源 认 证 和 完整 性 校 验 。 

。 防伪 性 :对 通信 双方 都 进行 认证 ,双方 都 可 以 配备 证 书 , 以 防身 份 被 骨 充 。 

SSL/TLS 协议 一 般 采 用 对 称 加 密 算 法 (例如 DES.、RC4 等 ) ,这 主要 是 基于 性 能 考虑 的 。 
窗 钥 的 协商 则 是 在 握手 阶段 完成 的 。 当 然 , 数 据 是 否 加 密 这 是 记录 协议 层 要 考虑 的 ,可 以 加 
窗 也 可 以 不 加 密 , 这 完全 视 安全 等 级 的 需要 而 定 。 但 无 论 是 否 加 密 , 记 录 协 议 层 对 于 数据 都 
是 要 附加 MAC 的 ,一 般 将 其 附加 在 数据 段 的 段 尾 ,如 图 23 -44 所 示 。 增 加 了 MAC 的 数据 
可 以 保证 不 被 算 改 ,同时 也 可 以 考虑 是 否 需 要 整体 加 密 。 


应 用 数据 | ”应 用 数据 | 
应 用 数据 应 用 数据 


四 器 
本 me 


4 
压缩 | | 
增 iWMAC | | 
加 密 | | 
添加 SSL 四 
[| 


23 一 44 SSL/TLS 记录 协议 层 对 于 应 用 层 数 据 的 处 理 


SSL/ATLS 的 握手 协商 是 一 件 步 又 党 复 的 事情 。 我 们 以 TLS 的 协商 为 例 ( 如 网 23 -45 所 
示 ) 可 以 看 到 ,从 握手 到 传输 数据 再 到 关闭 连接 总 共有 十 几 个 步骤 ,其 中 握手 协商 的 步 桑 占 了 
大 多 数 。 不 过 协商 过 程 中 有 的 步骤 是 可 选 的 ,可 以 根据 通信 的 保密 等 级 进行 选择 。 

(1) 客户 端 发 送 Client Hello 报 文 给 服务 闹 , 该 报 文中 包含 了 客户 端 文 持 的 SSL/TLS 的 
版 本 号 Session ID , 文 持 的 加 密 算 法 集合 ( Cipher Suite) 数据 压缩 方法 (Compression Method ) 
集合 等 信息 。 

(2) 服务 端 接收 到 Client Hello 报 文 后 回复 Server Hello 报 文 。 收 到 Client Hello 报 文 后 
服务 冰 确 定 了 能 够 文 持 的 SSLATLS 协议 版 本 、 加 密 和 压缩 算法 等 ,一 并 附 春 在 Server Hello 
报 文中 返回 给 客户 端 。TLS 的 Hello 报 文 如 图 23 -46 所 示 。 

(3) 这 一 步 可 选 ,服务 端 发 送 本 闪 的 数字 证 书 给 客户 端 (Send Certificate 报 文 ) 。 

(4) 这 一 步 也 可 选 ,服务 端 可 能 也 想 看 看 客户 端的 数字 证 书 , 这 便 是 双 辐 认证 ,因此 向 
客户 只 发 送 证 书 请 求 报 文 ( Request Certificate 报 文 ) 。 

(5) 至 此 ,服务 端 在 握手 协商 过 程 中 的 使 命 也 就 基本 完成 了 (虽然 步骤 (4) 的 客户 端 证 
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1.Client Hello 


L_ 2.Server Hello 

3.Send Certificate 
和 
| 4.Request Certificate | 
se ee ee | 
| 3.Server Hello Done | 
,| 6.Response Certiticate | 
| pi re en 一 一 1 
7.Client Key Exchange ' 
一 
8.Certificate Verify 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 和 =| 


9.Create Secret KeV 


10.Change Cipher Spec 


人 


11.Finished 


12.Change Cipher Spec 


13.Finmished 


14.Enerypted/Decrypted Data 


15.Closed Connection 


23 一 45 ” ”SSL/TLS 协议 的 握手 协商 流程 ( 虚线 为 可 选 步骤 ) 


四 Transmission Control Protocol, Srec Port: 20474 (20474), I 
HS Secure Sockets Laver 
日 TLSw1. 2 Record Laver: Handshake Protocol: Client Hello 
Content Tvype: Handshake (22) 
Version: TLS 1.0 (0x0301) 
Length: 172 
日 Handshake Protocol: Client Hello 
Handshake Type: Client Hello (1) . . 
Length: 168 3 Transmission Control Protocol, Src Port: https (443), Dst Fort: 20 
Version: TLS 1.2 (0x0303) 3 Secure Sockets Layer 
Random B TLSvl.2 Record Laver: Handshake Protocol: Server Helle 
Session TD Length: 0 Content Type: Handshake (22) 


Cipher Suites Length: 40 erate 1. 2 (0x0303) 

9 Cipher Suites (20 suites) BB Handshake Protocol: Server Hello 
Compression Methods Length: 1 Handshake Tyrpe: Server Hello (2) 

Compression Methods (1 method) Length: 61 

Extensions Length: 81 Version: TLS 1.2 (0x0303) 

| Extension: server_ name 国 Random 

国 Extension: renegotiation_ info Session 1D Length: 0 

Extension: elliptic_curves Cipher Suite: TLS_ECDHE_RSA_WITH_AES_128_CBC_SHA256 (0xc027) 
Compression Method: null (0) 
Extensions Length: 之 1 

国 Extension: server_name 


时 国 


Extension: ec_point formats 
Extension: SessionlTicket TLS 


Extension: channel_id 团 Extension: renegotiation_ into 
Extension: status_request 国 Extension: ec_point_ formats 


Extension: signature algorithms 国 是 


23 -46 ”TLS 通信 双方 的 Hello 报 文 


岗 团 四 由 轩 贱 


书 可 能 还 没有 返回 ) ,因此 加 客户 站 发 送 服务 病 初 始 协商 结束 通知 (Server Hello Done 报 
文 ) 。 注 意 , 这 里 只 是 初始 协商 结束 ,老鼠 拉 木 詹 , 大 头 在 后 面 呢 。 

(6) 这 一 步 是 客户 病 对 步骤 (4) 的 回应 ,因此 也 是 可 选 的 。 在 双 回 认证 的 情况 下 ,客户 
病 通 过 Response Certificate 报 文 将 本 病 的 证 书 发 送 给 服务 端 。 

(7) 客户 端 发 送 Client Key Exchange 报 文 ,使 用 服务 端的 公 希 对 客户 闹 公 和 钥 和 密 钥 种 子 
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进行 加 密 并 发 送 给 服务 症 。 

(8) 本 步 又 可 选 , 即 当 双方 选择 了 双 癌 认证 的 情况 下 ,客户 器 用 本 地 私 钥 生 成 本 病 证 书 
的 数字 签名 并 发 送 给 服务 只 (Certificate Verify 报 文 ) ,以 便服 务 病 通 过 公 钥 解密 并 进行 号 份 
认证 。 

(9) 通信 双方 通过 密 钥 种 子 等 信息 生成 通信 会 话 密 钥 ( Create Secret Key ) ,这 个 密 钥 是 
对 称 式 密 钥 ,必须 足够 长 ,具有 很 高 的 破译 门槛。 

(10) 客户 端 通 过 Change Cipher Spec 报 文 通知 服务 端 通信 方式 切换 为 加 密 模 式 。 

(11) 客户 端 癌 服务 端 发 送 Finished 报 文 以 通知 自己 做 好 了 加 密 通 信 的 准备 。 

(12) 服务 端 通过 Change Cipher Spec 报 文通 知客 户 闹 通信 方式 切换 为 加 密 模 式 。 

(13) 服务 端 向 客户 端 发 送 Finished 报 文 以 通知 自己 也 做 好 了 加 密 通 信 的 准备 。 

(14) 通信 双方 使 用 通信 会 话 密 钥 对 传输 的 数据 进行 加 密 和 解密 。 

(15) 通信 结束 后 ,任意 一 方 都 可 以 主动 断 开 SSL/TLS 连接 ( 发 送 Closed Connection 报 文 ) 。 

从 以 上 流程 上 可 以 看 出 , 密 钥 协商 的 4 个 阶段 分 别 是 服务 如 的 Certificate( 证 书 认证 ) 和 
Server Key Exchange( 交换 公 乌 和 蜜 钥 种 子 ) 以 及 客户 病 的 Certificate 和 Client Key Exchange。 
这 4 个 阶段 的 协议 可 以 定制 ,包括 消息 的 使 用 方法 也 可 以 更 改 , 将 来 右 要 扩展 密 钥 协商 的 方 
法 就 可 以 采用 定制 的 方式 实现 。 还 要 注意 的 是 ,协商 阶段 的 多 个 步骤 可 能 会 钻 合 并 成 一 条 
报 文 传输 以 提高 通信 效率 。 

在 SSLZTLS 的 握手 协商 流程 中 , 非 对 称 加 密实 现 了 号 份 认 证 和 和 密 钥 协商 ,对 称 加 密 算 法 
则 主要 用 于 对 数据 报 文 进行 加 密 , 而 散 列 函数 则 用 于 验证 信息 的 完整 性 ,如 图 23 -47 所 示 。 


BE | | 


RSAECCDH ; ' AESDESRC4; ; MD5 SHA 


本 l¥N ' lol v1 1 !。 函数 不 可 首 
Im 客户 靖 共 至 公 钥 1 1。 上 服务 端 和 客户 问 共 至! 1。 对 输入 敏感 
i。 服务 端 掌握 私 钥 ! '! 相同 密 氏 ! 1。 输出 长 度 固 定 
e 客户 端 信息 内 能 ， Tt | 

i 服务 端 解 害 ! 1 才 和 

客 全 曾 门 服务 请 1 服务 端 维护 多 个 这 钥 ! |! 

| 发送 唯 一 信息 '" 包销 协商 是 安全 基础 ! ，! 


[ 配 份 认证 对 各 本 
| 密 铀 协商 ' 


ms i i i i i i ss i i i ss i i i ss ll i ms ns i a i i i i i i i ms ns i ns ms i i ms i i i ss i i ss 
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在 SSL/TLS 协议 中 还 必须 对 连接 的 重 连 做 出 规定 。 例 如 当 客 户 问 访 问 了 在 服务 冰 受 到 
保护 的 数据 时 ,或 在 双方 更 新 通信 和 密 钥 时 ,都 会 发 生 连接 重 连 。 前 一 种 情况 一 般 造 成 服务 六 
主动 重 连 ,后 一 种 情况 一 般 造 成 客户 端 主动 重 连 。 

在 客户 端 与 服务 端 之 间 已 经 建立 起 有 效 的 SSL/TLS 连接 并 正常 通信 的 情况 下 , 若 客 户 
咽 访 问 了 服务 端 受 保护 的 数据 ,此 时 为 了 保护 这 些 数 据 , 服 务 问 会 要 求 重 新 认证 ,因此 服务 
闹 会 主动 癌 客 户 端 发 送 Hello 报 文 以 图 重新 建立 连接 ,客户 端 收 到 服务 端的 Hello 报 文 后 也 

会 回复 Hello 报 文 以 同意 重新 建立 连接 ,如 图 23 -48 所 示 。 


了 应 用 软件 开发 协议 栈 2 


客户 端 服务 端 客户 端 服务 端 
全 握手 全 所 


应 用 数据 


访问 受 保 护 数据 


Hello 请 求 


下 一 次 握手 的 过 程 


应 用 数据 


图 23-48 服务 端 主动 重 连 图 23 一 49 客户 端 主动 重 连 


客户 端 主动 重 连 的 过 程 与 上 述 类 似 ,如 图 23 -49 所 示 。 在 通信 过 程 中 如 果 客 户 端 感觉 
需要 更 新 密 钥 , 则 会 主动 发 出 Hello 报 文 。 但 由 于 Hello 报 文 的 内 容 无 法 被 服务 端 立 即 识别 
出 ,因此 服务 端 会 将 这 个 错误 提交 给 上 层 继续 处 理 ,一 般 上 层 会 要 求 重 新 建立 连接 以 更 新 密 
钥 。 此 时 客户 端 已 经 停止 回 服 务 端 发 送 数 据 了 。 服 务 端 一 旦 得 到 上 层 的 重新 建立 连接 的 指 
令 就 会 返回 Hello 报 文 给 客户 端 。 当 然 客户 疹 也 无 法 立即 识别 ,也 会 像 服务 端 一 样 回调 到 上 
层 并 被 要 求 重 新 建立 连接 ,并 由 此 开局 连接 重建 的 过 程 。 

2. DTLS 

作为 基于 UDP 的 传输 层 安 全 标准 ,DTLS 主要 是 为 了 弥补 TLS 的 不 足 。 但 是 DTLS 在 安 
全 机 制 上 对 TLS 的 改进 很 少 ,并 且 沿 用 了 TLS 的 大 部 分 标准 和 实现 代码 。 例 如 DTLSv1.0 是 
基于 TLSv1.1 的 ,DTLSv1.2 则 是 基于 TLSv1.2 的 。 

DTLS 协议 也 分 为 记录 协议 层 和 握手 协议 层 两 个 层次 ,其 框架 结构 如 图 23 - 50 所 示 。 


UDP socket 控 口 


图 23 一 50 DTLS 协议 的 框架 结构 


从 上 图 可 以 看 出 ,DTLS 协议 框架 中 的 握手 协议 层 主要 包括 握手 消息 .应 用 数据 和 报警 
消息 。 构 造 DTLS 报 文 段 时 ,首先 产生 上 层 的 负载 消息 (握手 消息 .报警 消息 等 ) ,然后 添加 
头 部 以 构成 上 层 消 息 人 全文。 再 以 此 作为 记录 协议 层 的 负载 ,添加 记录 协议 层 的 头 部 以 构成 
完整 的 DTLS 报 文 段 ,最 后 调用 UDP 的 socket 接口 发 送 。 在 这 个 过 程 中 ,DTLS 的 加 密 是 针 
对 记录 协议 层 负载 的 (消息 全 文 ) ,在 DTLS 协议 中 就 是 Finished 消息 报 文 和 应 用 数据 报 文 两 
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接 下 来 我 们 分 析 一 下 DTLS 协议 的 握手 协商 流程 ,如 图 23 -51 所 示 。 
客户 六 服务 端 
client hello 一 一 


《一 (hello verfy request) 
(chent_ hello) “天 一 一 
一 server hello 
《二 certificate 
一 天 ”Server kev exchapce 
《一 (certificate request) 
《一 SerVer hello_ done 
(certificate) = 
client key_ exchangeCC OO OO OO OOO 
(Certificate_ Very) 一 一 > 
change cipher spec 一 一 
finished 一 
《一 chance cipher spec 
《一 finished 


图 23-S1 DTLS 协议 的 握手 协商 流程 


DTLS 协议 与 TLS 协议 的 握手 过 程 基本 一 致 ,图 23 -51 中 括号 内 的 为 可 选 步 又 。 在 
DTLS 协议 的 Client_Hello 和 Server_Hello 报 文 中 都 包含 了 32 字 贡 的 随机 数 、 客 户 端 文 持 的 
加 密 方式 集合 等 ,这 些 也 与 TLS 如 出 一 国 。 在 这 些 步 又 中 要 注意 以 下 几 点 : 
> 客户 闪 问 服务 站 发 起 连接 请 求 时 ,服务 端 可 以 根据 事先 的 配置 选择 是 否 验证 客户 端的 
Cookie 和 证 书 ,这 分 别 对 应 了 服务 病 发 送 的 Hello_Verify_Request 和 Certificate 请 求 
报 文 。 

> Certificate 就 是 证 书 报 文 包括 了 服务 冰 的 证 书 。 

> Server_Key_Exchange 报 文 包括 了 用 于 进行 ECDH 密 钥 协商 交换 的 参数 ,以 便 协 两 出 
相同 的 密 钥 来 加 密会 话 的 应 用 数据 内 容 。 为 了 防范 中 间 人 攻击 , 报 文 末 也 对 整个 报 
文 进行 了 ECDSA 签名 。 

> Server_Hello_Done 报 文 的 负载 为 空 ,这 条 报 文 只 是 用 作 标 六, 表示 服 务 病 当前 阶段 的 
报 文 发 送 已 经 完毕 。 

> Change_Cipher_Spec 报 文 的 负载 也 是 空 的 ,用 于 同 服 务 端 通 知 本 端 ( 客户 闹 ) 已 经 计 

算出 主 密 钥 ,之 后 发 送 的 报 文 都 是 以 主 密 钥 加 密 的 。 

> Finished 报 文 是 握手 阶段 的 最 后 一 个 报 文 ,包括 了 消息 验证 码 等 信息 ,这 些 信息 也 是 

用 主 密 钥 加 密 的 。 

DTLS 可 能 遭遇 两 种 类 型 的 DoS 攻击 ,一 种 是 资源 消耗 型 , 另 一 种 是 放大 攻击 型 。 所 谓 

放大 攻击 就 是 仿冒 被 攻击 者 的 IP 地 址 回 服 务 病 发 送 初始 化 报 文 ,以 求 服 务 端 返回 一 个 体积 
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很 大 的 证 书 给 被 攻击 者 。 这 种 请 求 多 了 就 会 造成 被 攻击 者 的 瘫痪 。 可 以 通过 Cookie 验证 机 
制 减少 遭遇 放大 攻击 的 可 能 性 。 

Cookie 验证 机 制 要 求 客 户 端 发 送 Cookie ,服务 端 可 以 验证 其 IP 地 址 是 否 可 信 以 减少 
Dos 攻击 的 可 能 性 。 其 具体 做 法 是 : 

(1) 第 一 次 的 Client_Hello 报 文中 含有 Cookie 一 项 ,如 果 为 空 , 则 说 明 这 条 请 求 是 要 新 建 
连接 ,服务 并 会 根据 客户 端的 源 IP 地 址 通过 散 列 算法 生成 一 个 Cookie 并 填 入 Client_Hello_ 
Verify 报 文中 。 

(2) 第 二 次 的 Client_Hello 报 文中 带 入 了 上 述 Cookie 值 , 服 务 端 会 校 验 这 个 值 的 一 致 性 
以 决定 是 否 继续 握手 。 

除 此 之 外 ,DTLS 也 文 持 重 传 机 制 和 会 话 恢复 机 制 。 由 于 握手 成 功 后 服务 病 生 成 的 
Session ID 会 返回 给 客户 器 ,因此 客户 端 在 下 次 连接 时 可 以 附 帘 这 个 Session ID。 如 果 
Session ID 正确 , 则 服务 闪 允 许 客户 请 沿 用 原 有 的 会 话 数 据 ( 例 如 协商 鼻 法 和 密 钥 等 ) 。 


23.2.5 TCP 的 拥塞 控制 机 制 


从 前 面 的 草 节 中 可 以 看 出 ,以 UDP 方式 发 送 应 用 数据 以 求 效 率 , 以 TCP 方式 对 应 用 数 
据 收 发 进行 拥塞 控制 以 求 可 徘 ,这 是 近年 来 新 的 传输 层 协 议 的 特点 ,这 些 传输 层 协议 统称 为 
RUDP。 前 面 几 个 章节 已 经 介绍 了 这 些 协议 ,在 此 我 们 介绍 一 下 TCP 的 拥塞 控制 机 制 。 
TCP 有 两 种 比较 核心 的 控制 机 制 :拥塞 控制 和 流量 控制 。TCP 的 流量 控制 一 般 采 用 我 
们 比较 熟悉 的 滑动 窗口 机 制 实现 ,通过 控制 发 送 问 的 发 送 速率 来 匹配 接收 闪 的 接收 速率 。 
TCP 中 的 拥 考 一般 是 由 链 路 中 交换 机 或 路 由 融 等 中 间 节 点 的 缓冲 资源 不 足 造 成 的 ,也 就 是 
币 说 的 “拥塞 丢 包 ”。 我 们 说 TCP 是 可 菲 协 议 , 但 并 不 意味 看 不 丢 包 ,IP 包 在 路 由 右上 被 撞 
丢 了 岂 是 发 送 问 和 接收 问 能 控制 的 事 ? 但 是 丢 了 可 以 补 发 ,TCP 可 徘 的 含义 就 在 于 此 。 并 
且 这 个 补 发 也 是 上 层 应 用 软件 无 感 的 ,是 由 TCP 本 身 搞 定 的 。 特 别 是 在 长 链 路 环境 下 ,中间 
方 点 的 珊 冤 和 绥 冲 资源 更 为 荐 乏 , 因 此 拥 窒 产 生 的 几率 更 高 。 从 这 个 角度 讲 , 拥 蹇 控制 就 是 
要 防止 过 多 的 数据 被 注入 到 网 络 中 ,以 减轻 网 络 市 点 的 负载 ,因此 拥塞 控制 是 个 整体 性 和 全 
局 性 的 过 程 。 
在 介绍 拥塞 控制 之 前 先 来 解释 几 个 名 词 。 
> 拥塞 窗口 (congestion window ,cwnd) :这 是 TCP 发 送 冰 维 护 的 一 个 窗口 变量 , 摘 述 了 
发 送 六 在 拥塞 控制 情况 下 一 次 能 发 送 的 最 大 数据 量 。 在 传输 过 程 中 这 个 值 可 以 动态 
调整 ,代表 了 链 路 中 设备 的 传输 能 力 ,也 代表 了 网 络 的 拥塞 程度 。 
> 接收 窗口 (receive window ,rwnd) :用 于 对 端 通 告 ,接收 窗口 值 的 大 小 代表 了 已 发 送 
出 去 但 尚未 收 到 ACK 确认 包 的 最 大 报 文 长 度 ,接收 窗口 值 越 大 数据 传输 速率 越 快 。 
> 滑动 窗口 (sliding window) :这 是 由 TCP 接收 如 维护 的 用 来 进行 流量 控制 的 窗口 变 
量 ,代表 了 TCP 接收 病 的 接收 能 力 。 
> 慢 启 动 阐 (ssthresh ) :这 是 一 个 为 了 限制 ewnd 无 限 增长 而 设置 的 国 值 , 是 慢 启 动 与 拥 
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塞 避免 两 个 阶段 的 分 界 点 。 
e 当 cwnd < ssthresh 时 ,TCP 使 用 慢 启 动 算法 ， 
e 当 cwnd = ssthresh 时 ,TCP 既 可 以 选择 慢 局 动 算 法 也 可 以 选择 拥塞 避 优 算法 ; 
e 当 cwnd > ssthresh 时 ,TCP 使 用 拥塞 避免 算法 。 
在 这 两 个 阶段 ,cwnd 是 动态 增长 的 ,ssthresh 则 是 不 变 的 , 且 初 始 值 通常 设置 为 65 535 


| 


字 节 。 
> 最 大 段 长 度 (Max Segment Size ,MSS ) :以 太 网 MTU 减 去 卫 头 与 TCP 头 后 剩 下 的 字 
节 就 是 TCP 在 一 个 卫 包 中 的 最 大 段 长 度 。 
。 如 果 发 送 窗 口 能 够 最 大 限度 地 满足 MSS 则 传输 利用 率 高 。 
e。 以 太 网 MTU 为 1 500 字 节 ,因此 MSS 最 大 可 以 为 1 460 字 节 。 

> 回路 响应 时 间 (RTT ) :一 个 TCP 数据 包 从 发 送 端 发 送 开始 ,到 发 送 端 接收 到 接收 病 

返回 的 ACK 确认 报 文 的 时 间 间 隔 。 
> 重 传 超时 时 间 (RTO ) :数据 包 从 发 送 到 失效 的 时 间 间 隅 ,是 判断 数据 包 丢 失 与 否 及 
网 络 是 否 拥 塞 的 重要 参数 ,RTO 通常 设置 为 2RTT 或 5RTT。 

> 全 局 同步 :传输 链 路 中 间 市 点 (如 路 由 各 等 ) 在 缓存 紧张 时 可 能 会 丢弃 报 文 分 组 ,这 种 
情况 发 生 时 的 影响 往往 是 全 局 性 的 。 例 如 针对 TCP 连接 分 组 的 大 面积 丢弃 会 导致 许 
多 条 连接 产生 拥塞 。 因 此 这 么 多 条 连接 会 同时 进入 慢 局 动 阶段 和 快速 恢复 阶段 , 导 
致 网 络 流量 的 大 起 大 落 .剧烈 抖动 。 

TCP 的 拥塞 控制 比较 复杂 ,包括 了 人 慢 局 动 (Slow Start)、 拥 塞 避 人 免 (Congestion 
Avoidance) ,快速 重 传 (Fast Retransmit) 和 快速 恢复 (Fast Recovery) 这 几 个 阶段 。 

1) 慢 启 动 与 拥 寨 避 人 免 

慢 局 动 与 拥塞 避免 的 核心 思想 是 :发 送 的 初期 阶段 可 以 发 送 得 稍微 快 一 些 , 这 个 快 是 指 
发 送 数 据 量 的 增长 速度 ,这 种 增长 是 乘法 级 的 ,这 个 过 程 叫 “ 慢 启动 ”或 叫 “ 慢 开始 ” ;发 送 的 
后 期 阶段 要 发 送 得 稍微 慢 一 些 ,发 送 数 据 量 的 增长 速度 要 平缓 ,这 种 增长 是 加 法 级 的 ,这 个 
过 程 叫 "拥塞 避免 ”。 当 执行 完 这 两 个 阶段 后 网 络 负载 会 达到 峰值 ,再 往 后 的 话 ,如 果 控 制 得 
不 好 就 会 发 生 拥 塞 ; 控 制 得 好 , 链 路 的 利用 率 可 以 达到 顶峰 。 如 果 发 生 拥 塞 , 则 再 从 慢 启 动 
开始 执行 ( 较 新 的 TCP 版 本 已 经 废除 从 慢 局 动 阶段 重新 开始 的 脓 略 ) ,这 是 基于 一 种 "大公 
无 私 ” 的 信条 :TCP 不 是 一 个 目 私 的 协议 , 当 拥 塞 发 生 的 时 候 , 要 做 目 我 牺牲 。 

在 图 23 -52 中 ,cwnd 代表 了 发 送 的 数据 量 ( 这 里 是 以 MSS 为 单位 的 ,实际 在 网 络 中 以 
字 节 数 为 单位 ,确认 的 是 数据 段 的 俩 移 值 ) ,接收 端 每 发 送 一 个 ACK 确认 包 后 cwnd 都 会 增 
加 一 倍 (窗口 乘法 级 增长 ) ,这 是 理想 状态 下 的 慢 启 动 过 程 ,这 个 过 程 直 到 cwnd 等 于 ssthresh 
时 结束 ( 见 图 23 -53 中 慢 启 动 与 拥塞 避免 的 转折 点 , 即 ssthresh =16 处 ) 。 
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发 送 端 接收 端 
cwnd=] 发 送 M 
人 确认 M 


cwnd=2 | 发 送 M.~ML 、 
| 确认 M;~M;[ 轮 次 


cwnd=4 ] 发 送 M,~M 
确认 M,~M; 


cwnd=8 ] 发 送 Ms~M; 


图 23 -S$2 TCP 慢 启 动 阶段 中 cwnd 的 增长 过 程 


拥 畴 窗口 cwnd 


ri 网 络 拥 塞 
- | | 三 
24 |------------ 拥塞 避免 
| 1。 法 增 大 
乘法 减 小 ” 
ssthresh 的 初始 值 16 F------- | 
1 
8 
局 启动 。 4 | 指数 规律 增长 
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慢 局 动 慢 局 动 


图 23-S3 慢 局 动 与 拥塞 避免 的 过 程 


慢 启动 过 程 后 紧 接着 就 是 拥塞 避免 过 程 , 临 界 点 就 是 ewnd = ssthresh。 从 这 时 起 ,ewnd 
是 加 法 级 增长 的 ,每 过 一 个 RTT 后 ewnd 只 增加 1。 这 是 因为 cwnd 达到 一 定 的 国 值 后 如 果 
继续 激进 地 增 大 发 送 量 则 会 大 概率 地 引起 拥塞 。 

但 在 拥塞 避免 阶段 cwnd 也 是 增长 的 ,这 个 增长 总 是 有 个 度 的 ,这 个 度 就 是 拥塞 发 生 。 
那么 判断 拥塞 发 生 的 标准 是 什么 ? 就 是 在 一 个 RTO( 重 传 超时 时 间 ) 内 没有 收 到 ACK 确认 
a 这 个 判断 标准 非常 简单 也 非常 武断 ,不 考虑 因 长 肥 链 路 距离 过 长 ACK 包 还 在 途 的 情 

况 ,统统 “ 错 杀 ”J 。 但 这 也 是 无 妹 之 举 , 因 为 接收 端 是 没有 能 力 分 辨 ACK 包 是 丢失 还 是 在 
途 的 。 

当 拥 塞 发 生 时 ,TCP 将 ssthresh 设置 为 当前 cewnd 大 小 的 一 半 , 而 cewnd 则 设置 为 1, 再 重 
新 开始 慢 局 动 和 拥塞 避免 的 过 程 。 

2) 快速 重 传 与 快速 恢复 

我 们 先 来 介绍 一 下 接收 端 收 到 失 序 报 文 时 的 做 法 。 

所 请 失 序 ( Disorder) 就 是 报 文 排序 不 规则 ,中 间 有 缺失 。TCP 是 流 式 传输 ,以 学 市 为 单 
位 ,不 存在 报 文 序号 的 问题 ,这 里 说 的 是 报 文 段 的 偏 移 值 不 连续 ,中 间 有 缺失 。 如 果 接 收 端 
收 到 失 序 报 文 , 它 会 回 发 送 端 连 续 发 送 三 次 重复 的 ACK 确认 报 文 (DUPACK ) ,该 报 文 中 的 
确认 号 (ACK ) 为 丢失 报 文 段 的 序号 。 发 送 端 收 到 连续 三 次 这 样 的 重复 确认 包 就 会 知道 这 个 
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报 文 段 丢失 了 ,应 该 重 传 。 接 收 端 对 失 序 报 文 的 这 种 立即 确认 被 称 为 “快速 重 传 ” ,如 图 23 - 
54 所 示 。 人 快速 是 相对 重 传 计数 需 方 式 而 言 的 。 在 采用 重 传 计数 天 方式 时 ,TCP 在 等 不 到 
ACK 确认 报 文 的 时 候 会 重新 发 送 上 次 ACK 确认 后 发 送 的 数据 报 文 , 但 这 种 方式 要 等 到 RTO 
到 期 ,与 快速 重 传 一 比 就 太 慢 了 。 


发 送 庙 接收 问 


确认 Mi 


收 到 三 个 连续 的 “|_ 
对 M; 的 重复 确认 后 
立即 重 传 M: lg 


23 一 54 快速 重 传 的 过 程 
TCP 中 快速 重 传 算法 和 快速 恢复 算法 一 般 同 时 使 用 ,如 图 23 -55 所 示 。 人 快速 恢复 机 制 
是 这 样 的 : 
> 发 送 端 连续 收 到 三 个 重复 ACK 确认 报 文 后 将 ssthresh 设置 为 当前 cwnd 大 小 的 一 半 。 
> 接 下 来 并 不 执行 慢 启动 ,而 是 将 cwnd 设置 为 ssthresh 的 大 小 ,然后 执行 拥塞 避免 
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23 -SS TCP 中 的 快速 重 传 与 快速 恢复 过 程 
需要 注意 的 是 ,快速 重 传 机 制 依赖 于 接收 问 连 续 发 送 三 个 重复 的 ACK 确认 报 文 ,不 过 
这 三 个 ACK 并 非 代 表 只 丢 了 一 个 报 文 段 ,也 有 可 能 是 多 个 报 文 有 段 ,但 快速 重 传 算法 只 会 
传 一 个 报 文 段 , 剩 下 的 只 能 有 赖 于 RTO 超时 了 ,这 也 是 快速 重 传 算法 的 一 个 疯 端 。 
TCP 的 New Reno 版 本 和 SACK 机 制 可 以 解决 上 述 问题 。 
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3) 拥塞 控制 状态 机 
TCP 有 自己 的 状态 机 ,拥塞 控制 同样 也 有 自己 的 状态 机 ,发 送 端 TCP 协议 通过 状态 机 来 决定 
下 一 步 的 动作 (是 增 大 cwnd 还 是 缩小 cwnd 抑或 保持 不 变 ) 。 拥 塞 控 制 状态 机 如 图 23 - 56 所 示 。 


Loss 


Disorder 


图 23 一 56 ”TCP 的 拥塞 控制 状态 机 


> Open: 这 是 拥塞 控制 状态 机 的 默认 状态 。 发 送 端 接收 到 ACK 确认 报 文 后 会 根据 
cwnd 大 于 还 是 小 于 ssthresh 来 决定 接 下 来 执行 慢 启 动 还 是 拥塞 避免 。 

> Disorder : 发送 闪 在 收 到 重复 确认 报 文 ( DUPACK ) 或 者 选择 性 确认 报 文 (SACK ) 时 会 
认为 发 生 了 分 组 失 订 ,网 络 中 负载 已 达 极 限 , 此 时 转变 为 Disorder 状态 。 在 这 种 状态 
下 发 送 端 只 有 在 一 个 已 发 出 的 包 离开 了 网 络 后 (判断 标准 为 收 到 该 包 的 ACK 确认 报 
文 ) 才 会 发 出 新 的 包 。 

> CWR:CWR 即 Congestion Window Reduced( 拥塞 窗口 减少 ) ,发 送 端 在 拥塞 发 生 时 并 不 
是 立即 减少 拥塞 窗口 ,而 是 每 当 收 到 两 个 ACK 确认 报 文 就 减少 一 个 单位 的 MSS , 直到 
cwnd 的 大 小 减 半 为 止 。cwnd 减 小 且 网 络 中 没有 重 传 包 时 的 状态 就 是 CWR 状态 。 

> 了 Recovery :发送 站 接收 到 三 个 DUPACK 后 进入 该 状态 。 在 此 状态 下 ,接收 端 每 收 到 两 
个 ACK 确认 报 文 就 减少 一 个 单位 的 MSS, 直到 cwnd 等 于 ssthresh。 此 时 的 ssthresh 
等 于 刚 进 入 Recovery 状态 时 的 一 半 大 小 。 发 送 端 会 从 该 状态 逐渐 恢复 成 Open 状态 ， 
但 如 果 重 传 超 时 则 会 进入 Loss 状态 。 

> Loss: 当 一 个 RTO 到 期 后 ,发 送 端 进 入 Loss 状态 ,并 将 其 所 有 发 送 的 数据 标定 为 丢 
失 ,cwnd 被 初始 化 为 1(1 个 MSS) ,开始 慢 启 动 过 程 。 

4) 随机 早期 检测 

随机 早期 检测 (Random Early Detection ,RED ) 是 路 由 天 为 了 避免 发 生 全 局 同步 现象 而 及 

取 的 一 种 策略 ,其 原理 是 : 

> 路 由 器 分 组 缓冲 一 般 采 用 队列 的 方式 ,RED 机 制 在 路 由 器 中 维护 两 个 水 位 值 参 数 , 即 队 
列 长 度 最 小 国 min 和 最 大 国 max, 分 别 代 表 了 水 位 值 下 边界 和 上 边界 的 两 个 国 但 位 置 。 

> 分 组 到 达 路 由 器 后 RED 计算 队列 的 平均 长 度 : 
e 如 果 平 均 长 度 小 于 min , 则 分 组 正常 人 队 ; 


Se 


。 如 果 平 均 长 度 介 于 min 和 max 之 间 , 则 按照 菏 个 概率 p 丢弃 分 组 ; 
。 如 果 平 均 长 度 大 于 max, 则 丢弃 新 分 组 。 
这 里 最 关键 的 就 是 以 概率 于 弃 gg。 plea 于 地 
分 组 ,使 拥塞 只 发 生 在 个 别 的 TCP 连 


分 组 到 达 从 队 首发 送 
接 上 ,从 而 避免 全 局 同步 现象 的 产生 
(如 图 23 - 57 所 示 ) 。 拥 塞 发 生 与 避 


免 不 是 端 和 端 之 间 的 问题 ,而 是 端 与 本 于 均 队 列 共度, 
链 路 之 间 整 体 的 问题 ,因此 在 解决 了 Ce 
接收 问 与 发 送 端的 拥塞 控制 后 ,也 要 站 
着 手 优化 链 路 (路 由 需 等 ) 的 拥塞 控制 。 
5) TCP 的 拥 才 控制 算法 
TCP 的 拥塞 控制 算法 也 代表 了 TCP 的 版 本 ,也 就 是 说 TCP 的 演进 本 质 上 是 拥塞 控制 算 
法 的 演进 。 下 面 我 们 先 来 介绍 一 下 主要 的 TCP 版 本 。 在 TCP 的 发 展 过 程 中 ,大 致 有 4 种 不 
同 思路 的 拥塞 控制 算法 : 
(1) 基于 丢 包 的 拥塞 控制 算法 :将 丢 包 视 为 拥塞 发 生 ,因此 采取 探 路 和 逐渐 增 大 拥塞 窗 
口 的 办 法 ,例如 Reno .Cubic 等 算法 。 
(2) 基于 时 延 的 拥塞 控制 算法 .将 时 延 增加 视 为 拥塞 发 生 , 因 此 时 延 增 加 时 增 大 拥塞 窗 
口 ,时 廷 减 少时 缩小 拥塞 窗口 ,例如 Vegas .FastTCP 等 算法 。 
(3) 基于 链 路 容量 的 拥塞 控制 算法 :实时 测量 网 络 带 宽 和 时 延 ,认为 网 络 上 报 文 总 量 大 
于 市 宽 时 延 乘 积 时 就 是 拥塞 发 生 , 例 如 BBR 算法 。 
(4) 基于 学 习 的 拥塞 控制 算法 :与 上 面 几 种 思路 不 同 ,这 种 算法 借助 评价 函数 并 基于 训 
练 数据 ,使 用 机 器 学 习 的 方法 形成 一 个 控制 策略 算法 ,例如 Remy 算法 。 
下 面 我 们 列举 几 种 典型 的 拥塞 控制 算法 ,或 者 说 是 TCP 的 版 本 。 
> TCP Vegas: 是 于 1995 年 提出 的 利用 RTT 来 判断 拥塞 和 丢 包 的 TCP 版 本 ,该 版 本 在 
长 肥 网 络 中 不 和 常用。 在 该 版 本 中 , 当 RTT 变 大 时 ,有 理由 认为 链 路 发 生 了 拥塞 ,此 时 
减 小 cwnd; 反 之 ,如 果 RTT 变 小 , 则 认为 拥塞 情况 发 生 了 好 转 , 此 时 增 大 cwnd。 当 收 
到 一 个 重复 的 ACK 确认 报 文 时 会 比较 从 发 送 这 个 数据 报 文 段 到 当前 时 刻 的 间隔 ,如 
果 大 于 RTT 则 认为 发 生 了 丢 包 ,无需 等 竺 超时 或 者 收 到 三 个 重复 ACK 确认 报 文 就 直 
接 重 传 该 报 文 段 。 不 过 在 与 其 他 控制 算法 共存 的 情况 下 ,由 于 基于 丢 包 的 算法 会 符 
试 填 满 网 络 中 的 缓冲 区 继而 导致 RTT 增 大 ,使 得 Vegas 算法 减 小 了 cwnd ,最 终 导 致 伟 
输 速 率 变 得 越 来 越 慢 。 
> TCP Tahoe: 征 TCP 的 早期 版 本 ,在 这 个 版 本 中 规定 了 慢 局 动 .拥塞 避免 和 快速 重 传 三 
个 阶段 。 当 拥塞 发 生 时 ,cwnd 又 从 1 开始 慢 局 动 。 在 这 种 方式 下 传输 效率 是 个 大 问题 。 
> TCP Reno :是 TCP 的 较 新 版 本 ,在 这 个 版 本 中 增加 了 快速 恢复 阶段 ,也 就 是 将 发 生 拥 
塞 时 的 慢 启 动 直接 改 为 了 拥塞 避免 ,这 样 cewnd 也 不 会 大 起 大 落 “ 硬 着 陆 ”。Reno 版 
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本 适用 于 低 延 时 、 低 市 宽 的 网 络 。 

> TCP New Reno :是 较 TCP Reno 更 新 的 版 本 ,解决 了 前 一 版 本 中 问题 和 刺 冰 ,无 需 等 
待 RTO 超时 就 可 以 直接 持续 发 送 所 有 丢失 的 报 文 段 (大 致 为 一 个 RTT 周期 重新 发 送 
“HI 

> TCP SACK( Selective Acknowledgment ,选择 性 确认 ) ;是 最 新 的 TCP 版 本 ,是 对 TCP 
New Reno 的 扩展 , 文 持 只 对 丢失 的 报 文 段 进行 确认 (采用 TCP 的 扩展 字段 实现 ) ,使 
得 发 送 端 清楚 地 知道 哪些 数据 丢 了 而 应 该 重 发 。 

> TCP Cubic:Cubic 是 Linux 内 核 2.6 版 本 之 后 默认 的 TCP 拥塞 控制 算法 。 该 算法 使 
用 一 个 立方 (cubic ) 函数 作为 cwnd 的 增长 函数 ,cwnd 的 增长 不 再 与 RTT 有 关 ,而 仅 
仅 取 决 上 次 发 生 拥 塞 时 的 最 大 窗口 和 距离 上 次 发 生 拥 塞 的 时 间 间 隔 。 该 算法 的 优点 
在 于 只 要 没有 出 现 丢 包 , 就 不 会 主动 降低 日 己 的 发 送 速 度 , 可 以 最 大 限度 地 利用 网 络 
剩余 审 宽 ,提高 存 吐 量 , 在 高 市 宽 . 低 丢 包 率 的 网 络 中 可 以 发 挥 较 好 的 性 能 。 
除 此 之 外 ,还 有 一 些 优化 的 拥塞 控制 算法 也 都 是 基于 上 述 算法 做 了 有 限 的 改进 ,例如 
HSTCP( High Speed TCP) ,TCP BIC ,TCP WestWood 等 算法 。 
6) BBR 算法 
我 们 在 前 文 说 过 ,TCP 有 两 大 控制 机 制 .拥塞 控制 和 流量 控制 ,这 两 者 本 质 上 是 相 辅 相 
成 的 。 拥 塞 控制 是 对 发 送 闪 的 下 行 流 量 ( 发送 方 回 的 流量 ) 进行 控制 ,规定 了 下 一 个 时 刻 可 
以 发 送 多 少 ,但 并 不 意味 着 仅 此 而 已 ,这 里 面 还 包括 了 一 个 怎么 发 的 问题 。 打 个 比方 ,我 们 
有 1 000 包 数 据 需 要 在 1 秒 (1 000 毫秒 ) 内 发 出 , 那 我 们 可 以 在 第 1 全 秒 发 出 1 000 包 而 在 
后 面 999 毫秒 不 作为 ,也 可 以 每 1 毫秒 发 出 1 包 。 显 而 易 见 ,后 者 对 于 流量 的 控制 更 好 更 合 
理 ,更 不 容易 产生 拥塞 和 路 由 硕 内 排队 现象 。 薄 憾 的 是 ,TCP 的 拥塞 控制 机 制 基本 上 没有 对 
怎么 发 包 做 出 规定 。 
2016 年 ,Google 发 布 了 一 种 新 的 TCP 优化 传输 算法 BBR (Bottleneck Bandwidth and 
Round-trp propagation time , 撼 颈 带 蜗 和 往返 传播 时 间 ) ,并 集成 到 了 Linux 4.9 内 核 中 。BBR 
算法 采用 了 与 之 前 儿 种 拥塞 控制 策略 不 同 的 方式 , 即 采 用 了 主动 探测 审 宽 与 RTT 的 方式 来 
进行 拥塞 控制 ,并 基于 此 对 流量 控制 也 做 了 规定 。 
传统 的 TCP 拥塞 控制 算法 存在 以 下 不 合理 之 处 : 
> 首先 是 拥塞 的 判断 机 制 。 传 统 拥塞 控制 算法 认为 发 生 丢 包 就 是 产生 了 拥塞 ,但 这 个 
结论 不 全 对 。 因 为 在 一 般 的 局 域 网 中 ,由 于 链 路 错误 等 原因 造成 的 丢 包 是 可 以 忽略 
不 计 的 ,但 在 长 途 的 广域网 中 ,由 于 各 种 原因 造成 的 丢 包 就 很 频繁 地 发 生 了 ,特别 是 
经 过 无 线 传输 阶段 , 误 人 码 率 非 常 遍 ,这 部 分 原因 造成 的 丢 包 是 不 能 忽略 的 ,而 这 种 丢 
包 就 不 是 因 拥 塞 而 产生 的 了 。 因 此 传统 的 拥塞 探 制 算法 在 应 对 这 种 长 肥 网 络 的 时 候 
过 于 一刀 要 

> 其 次 是 缓冲 区 膨胀 问题 。 网 络 中 的 缓冲 区 用 于 吸收 流量 波动 。 拥 塞 控制 算法 倾 问 于 
填 满 整个 缓冲 区 ,但 当 缓 冲 区 较 大 而 又 遇 上 网 络 拥塞 的 情况 时 ,需要 很 长 时 间 才 能 清 
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空 缓 冲 区 中 的 数据 ,这 会 造成 网 络 延 时 。 也 就 是 说 ,发 送 端 估计 的 发 送 窗 口 总 是 略 大 
于 真实 链 路 容积 ,这 种 情况 被 称 为 “缓冲 区 膨胀 "。 脱 胀 往往 会 恶性 循环 地 加 剧 知 吐 
量 的 下 降 ,继而 产生 丢 包 。 

> 最 后 是 在 长 肥 网 络 中 的 窗口 计算 问题 。 广 域 网 的 发 送 窗 口 大 小 一 般 会 比 局 域 网 的 大 
1 ~2 个 数量 级 ,但 错误 丢 包 率 需要 至 少 低 2 个 以 上 的 数量 级 才能 正常 工作 ,这 是 因为 
广域网 的 BDP 高 于 局 域 网 好 几 个 数量 级 ,也 就 是 发 送 窗口 大 小 大 了 好 几 个 数量 级 ， 
但 错误 丢 包 率 需 要 与 发 送 窗 口 大 小 的 平方 成 反比 ,因此 在 长 肥 的 广域网 中 只 会 收敛 
到 一 个 很 小 的 发 送 窗 口 (长 肥 网 络 的 错误 丢 包 率 是 比较 高 的 ) 。 此 时 虽然 通信 两 端 和 
中 间 链 路 都 有 空间 可 用 ,但 是 发 送 速度 很 慢 ,甚至 发 送 到 一 半 就 没 速度 了 。 

为 了 解决 这 些 不 合理 的 问题 ,BBR 算法 引入 了 新 的 机 制 和 算法 。 

(1) 新 的 瞬时 带宽 算法 

BBR 算法 会 跟踪 目前 为 止 最 大 的 瞬时 带宽 ,这 个 带宽 将 作为 BBR 算法 的 基础 数据 (该 


市 宽 是 个 标量 数据 ,因此 不 必 纠 结 于 其 舍 义 ) 。 瞬 时 市 宽 的 计算 只 需要 两 个 数据 :应答 了 多 
少数 据 , 记 为 delivered; 应 答 delivered 这 么 多 的 数据 所 用 的 时 间 , 记 为 interval us。BBR 定义 
的 瞬时 市 完 如 下 : 


瞬时 市 宽 = delivered/interval_us 
每 隔 10 秒 探测 一 次 瞬时 带宽 ,这 个 带宽 数据 从 计算 的 来 源 上 来 讲 没有 什么 意义 ,BBR 


算法 也 不 关心 它 的 含义 。 同 时 ,这 里 的 应 答 既 包括 ACK 也 包括 SACK, BBR 算法 认为 ,即使 
是 被 SACK ,也 代表 链 路 上 已 经 清空 了 多 少 网 络 数据 包 。 


从 图 23 一 58 所 示 的 例子 中 可 以 看 出 ,BBR 算法 不 关心 数据 包 是 否 按 序 确认 ,也 不 关心 


是 ACK 还 是 SACK ,而 是 只 要 收 到 确认 包 就 算数 ,这 也 代表 了 BBR 算法 真正 关心 的 是 链 路 
上 网 络 包 被 清空 的 数量 , 而 不 是 接收 端 已 经 成 功 接收 了 多 少 包 。 好 像 很 有 道理 的 样子 。 


数据 包 中 的 数字 表示 
诅 数 据 包 是 第 几 个 庆 
ACE 或 者 SACK 的 


跟踪 被 ACR 将 要 发 党 的 数据 包 


SACR 的 顺序 


CN i : delivered eurr=12fX 膏 抬 由 时 册 当 丽 deliwered 
”发送 时 记录 ! 
2 [ 


delivered. now=7(X 发 送 时 delivered 的 景 大 值 ) interval us=max(Delta. SEND, Delta. ACK) 
Time. ACEK= 最 后 被 ACE 或 者 SACE 的 数据 包 被 应 答 的 时 间 Pe 
Time. SEND= 最 后 被 ACK 或 者 SACK 的 数据 包 被 发 送 的 时 间 
Time. X=X 补 发送 的 时 间 


byw=rdelivered. eurr — delivered. mow Interval Us 


M Delta. Send=X 与 delivered _ nowt{ 即 包 玫 的 发 送 时 间 之 差 | 
! |Delta ACK=X 与 delivered. nowf 色 包 7 了 的 ACKASACK 时 国之 专 | ， 


跟踪 被 ACK 被 ACK 或 SACK 时 读 取 
SACRKE 的 顺序 ~ Ee | 


a SEE 
被 ACK 或 SACK 时 计算 


刚 被 SACK 的 数据 包 


图 23-S8 瞬时 带宽 的 计算 (例子 中 共有 12 -7 =5 个 数据 包 被 ACK/SACK) 
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(2) 最 小 RTT 跟踪 

BBR 算法 采用 主动 探测 机 制 获取 RTT, 这 个 RTT 是 目前 为 止 的 最 小 RTT。 

(3) pipe 状态 机 

根据 互联 网 上 的 拥塞 行为 ,BBR 算法 不 再 采用 TCP 的 拥塞 控制 状态 机 了 ,而 是 男 外 提 
出 了 4 种 状态 :STARTUP( 起 始 状态 ) .DRAIN( 清 空 状 态 ) .PROBE_BW( 有 瞬时 汕 完 探查 状态 ) 
和 PROBE_RTT(RTT 探查 状态 ) ,如 图 23 一 59 所 示 。 


最 小 RTT 探 测 结 束 ， 


paclnigrate 


维持 4 个 MSS 


最 小 RTT 探 测 结 束 ， 


Inflight 上 = 当前 最 大 BDP; 
cwnd > BDP | 


管道 用 满载 


到 23 一 59 BBR 算法 的 状态 机 


上 述 4 个 状态 中 ,STARTUP 是 最 初 的 起 始 状 态 , 此 时 以 带宽 的 bbr_high_gain( 增 益 系 
数 ) 为 倍数 计算 发 送 速率 pacing rate 与 拥塞 窗口 cwnd。 当 发 送 速率 不 册 增 加 时 进入 DRAIN 
状态 。 如 果 拥 塞 窗口 (Inflight) 不 大 于 当前 最 大 的 BDP( 审 宽 时 延 滋 积 ) ,证 明 链 路 刚刚 满 
载 ,此 时 进入 稳定 状态 PROBE_BW。 在 这 个 状态 下 BBR 算法 会 定时 探测 RTT 和 链 路 瞬时 
带宽 bw , 当 拥塞 窗口 小 于 BDP 时 进入 STARTUP 状态 ,并 再 次 试图 增加 发 送 速率 。 这 是 一 个 
周而复始 的 过 程 。 
> 增益 系数 (bbr_high_gain) :增益 系数 大 于 1, 代表 接 下 来 可 以 比 计 算出 的 bw 值 更 快 
更 多 地 发 送 数据 ;增益 系数 小 于 1 则 正好 相反 ,pacing rate 与 ewnd 都 要 根据 bw( 链 路 
瞬时 审 宽 ) 计 算 的 结果 下 调 以 达到 降 速 目的 ;如 果 增 益 系 数 正 好 为 1, 则 按照 当前 计 

> 稳定 状态 :在 该 状态 下 计算 pacing rate 与 cwnd 的 时 候 并 不 像 初 始 状态 中 采用 一 个 很 
大 的 增益 系数 去 扩张 或 收缩 它们 , 而 是 用 一 个 比较 中 良平 和 的 增益 系数 (例如 1、 
3/4 .5/4) 去 扩张 或 收缩 ,就 像 轻 踩 油门 与 刹车 一 样 ,以 达到 一 种 轻微 浮动 式 的 波动 状 
态 。 稳 定 状态 极力 避免 熔断 式 “ 硬 着 陆 ”。 

在 传统 的 TCP 拥塞 控制 算法 中 ,cwnd 总 是 测 不 准 , 因 为 传统 算法 倾向 于 同时 测量 代表 
发 送 容 量 的 BDP ,也 就 是 同时 测量 bw 与 RTT。 但 是 bw 最 大 也 就 意味 着 链 路 上 的 缓冲 区 中 
的 数据 “膨胀 "了 ,RTT 就 是 最 大 ; 反 过 来 说 ,RTT 最 小 就 意味 着 链 路 缓冲 区 为 空 ,但 带宽 肯定 
不 是 最 大 ,因此 这 两 个 结果 总 是 测 不 准 ,乘积 总 是 上 下 波动 ,再 加 上 一 些 激进 的 拥塞 避免 和 
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快速 恢复 算法 ,这 个 波动 就 比较 剧烈 了 。 

BBR 不 再 同时 测量 bw 与 RTT 了 ,而 是 分 开交 蔡 测 量 ( 如 图 23 -59 中 的 状态 机 所 示 )， 
并 且 不 以 外 部 条 件 为 判断 依据 , 心 无 芳 爸 地 以 日 己 的 测量 结果 (bw 和 RIT) 为 准 , 并 且 将 测 
量 的 周期 拉 长 ,以 一 段 时 间 内 采样 的 最 大 bw 和 最 小 RTT 作为 估计 值 。 这 意味 着 BBR 算法 
相信 网 络 是 长 期 问好 的 。 

(4) pcaing rate( 发 送 速率 ) 与 cwnd( 拥 塞 窗口 ) 的 算法 

这 两 个 值 定义 了 数据 怎样 发 出 去 以 多 大 的 时 间 间 隔 发 出 去 发送 多 少数 据 。 这 是 为 了 
避免 “ 突 发 "情况 而 造成 的 路 由 融 排 队 .RTT 持 动 等 情况 而 设置 的 。 有 的 时 候 接收 病 为 了 节 
约 伸 宽 把 多 个 ACK 确认 报 文 封装 为 一 个 包 返 回 ,使 发 送 问 一 股 脑 地 发 出 好 多 包 ; 还 有 些 时 
候 上 层 应 用 传 来 的 数据 量 突然 增 大 ,也 会 导致 一 股 脑 发 大 量 数据 的 突 发 情况 发 生 。 

pacing rate 的 计算 非常 便 单 , 束 是 使 用 时 间 和 窗口 (上 默认 10 轮 采 样 周 期 ) 内 最 大 的 链 路 瞬 
时 市 守 bw 乘 以 当前 的 增益 系数 。 

cwnd 也 描述 了 管道 的 容量 , 即 BDP 的 值 。 因 此 BBR 算法 首先 使 用 最 小 的 RTT( 代 表 了 
细 经 达到 的 最 佳 RIT) 计算 BDP ,既然 以 前 达到 过 , 那 现 在 和 将 来 也 有 可 能 再 次 达到 。 计 算 
出 BDP 后 乘 以 增益 系数 就 是 cwnd 的 值 。 

下 面 介 绍 BBR 算法 的 工作 过 程 。 

JU 慢 启动 阶段 :BBR 算法 司 动 时 也 会 有 一 个 类 似 慢 局 动 的 阶段 , 即 乘 数 级 增 大 发 送 速 
率 。 在 这 个 阶段 ,中 辐 链 路 的 缓冲 区 未 被 占用 ,因此 RTT 很 小 ,并 作为 初始 的 采样 估计 信 , 此 
时 的 瞬时 市 宽 bw 作为 害 宽 的 采样 佑 计 值 。 

拥塞 避免 (清空 ) 阶 段 : 当 BBR 算法 收 到 确认 包 后 如 果 发 现 有 效 带 宽 不 再 增长 了 就 
进入 了 拥塞 避免 阶段 。 在 这 个 阶段 只 要 丢 包 率 不 是 太 高 ,BBR 算法 就 基本 视而不见 。 当 发 
送 速 率 增 大 到 开始 占用 中 间 链 路 缓冲 区 的 时 候 , 有 效 市 宽 就 不 再 增长 了 ,这 样 保证 了 缓冲 区 
不 会 被 十 满 。 但 此 时 已 经 开始 占用 缓冲 区 了 (实测 会 多 所 用 2 倍 市 锅 延 时 乘积 的 缓冲 空 
间 ) 。 这 时 要 把 多 占用 的 绥 冲 空间 清空 ,因此 会 乘 效 级 降低 发 送 速 挛 (从 STARTUP 状态 转 和 人 
DRAIN 状态 ) 。 

3) 稳定 状态 运行 阶段 :这 时 清空 阶段 结束 ,BBR 算法 交 蔡 探测 带宽 和 RTT( 实际 上 稳定 
状态 的 绝 大 多 数 时 间 处 于 带宽 探测 阶段 ) ,这 时 处 于 正 反 馈 场景 一 一 定期 增 大 发 包 速 率 ,如 
果 收 到 确认 的 速度 也 提高 了 ,就 进一步 增 大 发 送 速 率 。 

从 上 述 信 息 中 可 以 看 出 ,BBR 是 个 不 计较 丢 包 的 拥塞 控制 算法 ,更 没有 把 传统 TCP 的 
拥塞 状态 ( Loss、Recovery ) 当 回 事 。BBR 算法 只 根据 瞬时 市 宽 bw 来 调整 代表 发 送 量 的 
cwnd ,并 根据 bw 计算 发 送 速 卒 。BBR 算法 真正 在 意 的 是 在 一 段 时 间 内 没有 达到 RTT 采样 
的 最 小 信 或 更 小 的 值 ,这 证 明 链 路 没有 在 变 好 可 能 正在 变 差 ,也 许 承 意 味 厦 发 生 了 拥塞 。 

BBR 算法 不 断 地 基于 当前 审 宽 以 及 当前 的 增益 系数 计算 调整 pacing rate 及 cwnd ,以 此 
结果 作为 拥塞 控制 算法 的 输出 。 每 收 到 一 个 ACK 确认 包 ,都 会 计算 瞬时 带宽 ,然后 将 结果 
反馈 给 BBR 的 pipe 状态 机 ,并 不 断 地 调节 增益 系数 ,这 就 是 BBR 算法 的 核心 工作 机 制 , 如 
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图 23 -60 所 示 。 因 此 BBR 算法 是 一 个 典型 的 封闭 反馈 系统 ,与 TCP 当前 处 于 什么 拥塞 状 
态 完 全 无 关 。 这 一 切 机 制 都 眶 准 了 尽 最 大 努力 充分 高 效 地 占用 融 宽 和 降低 链 路 缓冲 区 占有 
率 从 而 减少 延迟 的 理念 。 


| 


根据 bw 和 增益 系数 计算 
网 络 黑 盒子 


发 送 速 率 和 窗口 
23 -60 ”BBR 算法 的 工作 机 制 


BBR 算法 也 不 再 使 用 "加 法 增长 ,乘法 减 小 "的 方式 来 维护 发 送 窗 口 大 小 , 而 是 分 别 佑 
计 极 大 带宽 和 极 小 延迟 ,把 它们 的 乘积 作为 发 送 窗口 的 大 小 。 

目前 ,BBR 算法 在 长 肥 网 络 中 已 经 越 来 越 被 广 沁 应 用 了 ,在 前 文 介绍 的 QUIC 协议 中 就 
采用 了 BBR 算法 改善 TCP 的 拥塞 控制 机 制 。 


23.2.6 TCP 加 速 技 术 


所 谓 TCP 加 速 就 是 通过 改进 发 送 或 拥塞 控制 的 策略 来 提升 TCP 的 发 送 效 率 和 发 送 速 
率 , 本 质 上 就 是 通过 判断 拥塞 以 调整 发 送 速 率 。 在 长 肥 的 广域网 中 TCP 加 速 特别 重要 ,可 以 
分 为 双边 加 速 和 单 边 加 速 两 种 。 
> 双边 加 速 :要 在 TCP 的 接收 病 和 发 送 病 都 进行 加 速 升级 ,因此 也 可 以 党 统 地 看 作 一 种 
私有 协议 。 既 然 是 私有 协议 ,普通 版 本 的 TCP 就 不 支持 它 了 ,这 在 一 定 程度 上 限制 了 
TCP 加 速 技术 的 普及 。 双 边 加 速 的 算法 和 技术 很 多 ,特别 是 基于 拥塞 判断 及 拥塞 控 
制 的 算法 ,在 此 我 们 不 详细 叙述 。 
> 单 边 加 速 :这 是 一 种 只 需要 在 一 半 ( 一 般 是 发 送 端 ) 进行 升级 和 优化 的 加 速 技 术 。 采 
用 单 边 加 速 的 TCP 在 提高 了 发 送 速 率 的 同时 , 却 不 需要 通信 对 端 做 任何 升级 ,具有 更 
好 的 兼容 性 。 
以 拥塞 的 判断 及 处 理 方式 来 区 分 ,到 目前 为 止 ,TCP 加 速 技术 已 经 历 了 两 代 演进 : 
> 基于 丢 包 的 拥塞 判断 及 处 理 (Loss-based ) :以 于 包 来 判断 拥塞 并 调整 传输 速率 。 
> 基于 延迟 的 拥塞 判断 及 处 理 (Delay-based ) :以 往返 延迟 RTT 的 变化 来 判断 拥塞 并 调 
整 传输 速率 。 
不 论 是 基于 丢 包 还 是 基于 延 玉 ,加速 技 术 都 采用 静态 算法 , 即 基于 对 流量 模型 的 假设 前 
提 而 采用 固定 的 拥塞 判断 及 恢复 机 制 。 但 网 络 的 流量 特征 越 来 越 复 杂 、 越 来 越 动态 并 难以 
预测 ,因此 基于 丢 包 和 基于 延迟 的 加 速 技术 和 和 帝 只 在 假设 前 提成 立 的 特定 网 络 场景 下 有 效 ， 
并 且 随 着 网 络 路 径 特 征 的 变化 ,加 速效 果 也 起 伏 不 定 , 有 时 甚至 出 现 反 效 果 。 
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随 着 机 融 学 习 技 术 的 发 展 , 基 于 学 习 的 (Learning-based) 拥塞 判断 及 处 理 的 优势 逐渐 显 
现 出 来 。 与 上 述 两 代 技 术 不 同 ,基于 学 习 的 加 速 技术 通过 对 路 径 上 传输 历史 的 学 习 来 动态 
地 判断 拥塞 并 调整 传输 速率 。 本 节 我 们 讨论 两 种 基于 学 习 的 单 边 加 速 技 术 。 
1) ZetaTCP 加 速 技术 
ZetaTCP 是 华夏 创新 (AppEx) 在 2006 年 研发 的 TCP 单 边 加 速 引擎 ,支持 智能 流 控 算 法 ， 
并 且 兼 容 传统 的 TCP 流 控 机 制 ,使 用 ZetaTCP 算法 时 无 需 对 TCP 头 做 任何 修改 。ZetaTCP 
具有 以 下 加 速 特点 : 
(1) 引入 了 精确 的 丢 包 判断 和 预测 算法 
> 传统 的 TCP 流 控 机 制 经 常 误 判 丢 包 ,例如 将 一 些 重 传 行为 误 判 为 丢 包 ,从 而 造成 了 带 
宽 和 时 间 的 浪费 。 
> ZetaTCP 改进 了 丢 包 判断 的 机 制 , 采 用 网 络 路 径 特征 自学 习 的 动态 算法 ,基于 每 一 个 
TCP 连接 实时 观察 并 分 析 网 络 特征 ,根据 学 习 到 的 网 络 特征 随时 调整 算法 来 更 准确 
地 判断 拥塞 程度 并 及 时 地 判断 是 否 丢 包 , 从 而 更 恰当 地 进行 拥塞 处 理 并 更 快速 地 进 
行 丢 包 恢复 。 
(2) 定时 侦 测 链 路 齐 宽 并 根据 侦 测 结果 调整 发 送 速率 
> 传统 的 TCP 滑动 窗口 机 制 也 经 常 误 判 路 径 上 的 带宽 容量 ,或 者 增 得 太 急 或 者 减 得 太 
独 , 出 现 这 两 种 极端 震荡 状况 时 也 往往 伴随 着 大 量 丢 包 , 叶 至 了 市 贤 利 用 率 下 降 。 
> ZetaTCP 根据 主动 侦 测 的 路 径 带 宽 动态 调整 数据 发 送 量 。 
(3) 实时 监测 和 学 习 接 收 端 的 传输 行为 
> 传统 的 TCP 是 基于 被 动 确认 方式 的 ,这 种 方式 需要 发 送 冰 等 到 接收 冰 返 回 ACK 确认 
报 文 时 才能 研判 丢 包 并 佑 算 路 径 市 宽 。 
> ZetaTCP 根据 发 送 模 式 智 能 地 反馈 § 和 引导 对 闹 判 断 丢 包 以 及 精确 计算 路 径 市 宛 。 
实践 表明 ,在 延迟 较 大 、 丢 包 率 较 高 的 网 络 中 ,ZetaTCP 相 比 基于 丢 包 和 基于 延迟 的 两 种 
加 速 方式 表现 出 明显 的 优势 。 
2) mmTrixTCP 加 速 技 术 
mmTrixTCP 也 是 一 种 基于 传输 历史 学 习 的 单 边 TCP 加 速 技术 ,在 传统 拥塞 控 制 算法 的 
基础 上 增加 了 下 列 加 速 机 制 : 
(1) 使 用 科学 的 拥塞 反馈 信和 号 
作为 新 一 代 TCP 加 速 技术 ,mmTrixTCP 同时 考虑 技 包 和 延迟 的 变化 ,并 且 引 入 了 TCP 
连接 路 径 网 络 特征 目 学 习 的 动态 算法 来 进一步 提升 拥塞 判断 的 准 硝 性 和 及 时 性 。 
并 非 由 拥 赛 导致 的 丢 包 和 延迟 变化 ,从 而 使 拥塞 判断 更 及 时 .更 准确 。 
(2) 建立 更 好 的 数学 模型 
可 以 减少 慢 启 动 和 线性 增加 所 做 的 逐步 探测 网 络 带 宽 的 过 程 , 从 而 更 快 地 达到 网 络 最 
大 利用 率 。mmTrixTCP 根据 拥塞 反馈 信号 动态 计算 一 个 网 络 的 均衡 点 (在 这 个 点 实现 了 网 
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络 利 用 率 的 最 大 化 ,并 且 能 尽量 保证 各 方 的 公平 性 ) 。 离 均衡 点 越 远 ,拥塞 窗 口 调整 越 快 , 否 
则 越 慢 。 

(3) 使 用 平滑 的 突 发 控制 方法 

mmTrixTCP 突 发 控制 部 分 通过 一 种 类 流 方式 来 妃 踪 网 络 的 可 用 市 宽 ,以 达到 平滑 数据 
包 发 送 的 目的 。 突 发 控制 在 大 带宽 时 延 乘 积 网 络 中 的 作用 尤为 重要 ,因为 在 此 类 网 络 中 有 
时 受 网 络 和 末端 主机 的 影响 ,造成 的 突 发 通信 和 量 可 能 会 非常 大 。 

比如 ,一 个 确认 消息 能 够 确认 上 干 个 数据 包 , 这 样 会 使 发 送 窗口 突然 变 得 非常 大 而 造成 
“ 帘 发 ”, 有 时 也 会 造成 发 送 端的 CPU 被 长 期 占用 以 处 理 输入 的 待 发 送 数 据 包 。 此 时 人 允许 输 
出 的 数据 包 堆 积 在 设备 输出 队列 中 , 当 CPU 可 用 时 ,就 可 能 产生 巨大 的 脉冲 ,这 种 脉冲 会 产 
生长 队列 ,并 会 增加 数据 包 大 量 丢 失 的 可 能 性 。 

mmTrixTCP 使 用 两 种 突 发 控制 机 制 : 一 是 对 单个 数据 包 补 充 日 同步 ,二 是 使 用 连续 小 脉 
冲 使 窗口 增加 更 加 平 请 。 

(4) 使 用 基于 预测 的 丢 包 判断 

标准 TCP 协议 栈 通过 两 种 手段 判断 丢 包 :一 是 接收 关连 续 重 复 ACK 包 的 数量 ,二 是 
ACK 超时 。 当 有 较 多 丢 包 时 ,往往 要 靠 ACK 超时 来 判读 超时 并 引发 重 传 。 大 带宽 时 延 乘积 
网 络 的 丢 包 是 和 常态 ,一 个 连接 上 有 上 干 个 数据 包 同 时 丢失 是 第 有 的 事 。 因 此 标准 TCP 经 稼 
要 靠 超时 来 重 传 ,这 会 使 传输 被 长 时 间 阻 塞 。 这 是 影响 标准 TCP 效率 的 又 一 主要 原因 。 
网 络 特征 自学 习 的 动态 算法 来 尽快 地 预测 丢 包 。 预 测算 法 考虑 的 网 络 特征 因素 和 
mmTrixTCP 拥塞 判断 的 目 学 习 算 法 类 似 。 通 过 传输 历史 的 跟 踩 学习,mmTrixTCP 丢 包 判断 
算法 随机 地 对 已 发 出 去 但 尚未 被 对 方 ACK 的 数据 包 给 出 一 个 已 丢失 概率 ,概率 值 会 随 着 传 
输 的 进行 不 断 调整 。 当 概率 达到 一 个 很 高 的 国 值 时 ,算法 认为 当前 发 出 的 包 已 丢 , 将 立即 局 


23.3 应 用 层 协 议 


在 前 面 两 节 中 ,我 们 分 别 介 绍 了 位 于 TCP/IP 模型 第 三 层 的 网 络 层 协议 和 第 四 层 的 传输 
层 协议 。 本 节 将 介绍 位 于 TCP/《 了 PP 模型 最 上 层 的 应 用 层 协议 ,特别 是 聚焦 于 视 联 网 (VoIP) 和 
物 联 网 (IoT) 领域 的 应 用 层 协 议 。 更 确切 地 说 应 该 是 协议 栈 , 因 为 包括 会 话 层 和 表示 层 在 内 
的 跨 层 协议 也 会 被 纳入 ,这 也 是 整个 计算 机 通信 协议 中 比较 细 分 的 领域 协议 。 这 些 协 议 更 
加 贴近 应 用 程序 ,更 贴近 行业 ,更 需 要 与 应 用 相 匹 配 。 


23.3.1 视 联网 协议 栈 


在 此 ,我 们 整理 了 常见 的 视 联 网 协议 列表 ,包括 视频 监控 视频 会 议 ,视频 封 滩 等 多 个 细 
分 场景 的 协议 (如 图 23 -61 所 示 ) ,有 的 协议 只 能 在 某 个 细 分 领域 出 现 ,而 有 的 协议 则 可 以 
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跨越 多 个 视频 场景 。 这 些 协 议 按照 功能 可 以 分 为 协商 类 .封装 类 编码 类 和 传输 类 等 ,这 些 
协议 的 组 合 又 可 能 构成 更 上 层 的 视频 细 分 行业 的 协议 (例如 GB/AT 28181 就 是 基于 SIP、 
SDP RTP 等 协议 构成 的 视频 互联 互通 应 用 协议 ) ,因此 我 们 称 之 为 视 联网 协议 栈 也 是 很 贴 
切 的 。 


视频 会 议 协 商 协议 : H.323、H.225、H.245 


| 视频 监控 协商 协议 : SIP、SIPS、RTSP、SDP、GB/T 28181、GB/ 
T 35114 


音 视 频 协 商 协议 


互联 网 视频 协商 协议 : RTMP、RTMPF、HLS、RTSP、MPEG- 
DASH. MMS. HAS. HDS. MS-SSTR Smooth Streaming 


传输 封装 协议 : RTP/RTCP、SRTP/SRTCP 
一 一 
音 视频 封 闻 协议 3 容器 封装 协议 : FLV、MP4、AVI、MKV、RMVB、webM. 


3oP、WMV、MPG、VOB、MOV、sSWF 


视频 编码 协议 : H.264(SVC/AVC)、H.265、SVAC、AVS、VP8、 
VP9 


钢 联 网 协议 栈 上 
音 视频 编码 协议 =/ 


音频 编码 协议 : aac、g711a、g711u、mp3 
传输 层 协议 : SRT 


图 23-61 常见 视 联 网 协议 列表 


不 过 本 节 对 于 视 联网 协议 栈 只 是 泛泛 而 谈 , 不 会 “ 贪 大 求全 "地 什么 都 介绍 ,也 不 会 介绍 
得 太 细 。 这 是 因为 大 部 分 协议 的 详细 资料 在 网 上 多 如 牛 毛 ,而 且 这 些 协议 大 多 也 都 属于 “ 博 
学 强 记 ”类 的 ,是 对 规则 规范 的 遵守 。 

对 于 某 些 应 用 层 协议 , 擎 握 其 功能 .数据 报 文 格式 和 工作 流程 就 可 以 了 。 例 如 流 媒 体 领 
域 的 协议 RTSP 与 RTMP ,其 握手 与 传输 过 程 可 以 通过 抓 包 比 对 着 看 ,这 样 更 有 益 于 加 深 理 
解 ,如 图 23 -62 所 示 。 


protoccl length New Column 
.196 RTSP 179 OPTIONS rtsp://10. 45. 149. 196:554/000100 RTSP/1.0 
.209 RISP 206 Reply: RISP/1.0 200 OK 
.196 RISP 205 DESCRIBE rtsp://10. 45. 149. 196:554/000100 RISP/1.0 
.209 RISP/SDF 941 Reply: RTSP/1.0 200 OK 
.196 233 SETUP rtsp://10. 45. 149. 196/000100/trackID=1 RTSP/1.0 
. 209 257 Reply: RISP/1.0 200 OK 
,196 252 SETUP rtsp://10. 45, 149. 196/000100/trackID=2 RTSP/1.0 
.209 257 Reply: RISP/1.0 200 OK 
.196 211 PLAY rtsp://10. 45. 149. 196/000100/ RTISP/1.0 
.209 426 Reply: RISP/1.0 200 OK 


Destination Protocol length New Column 
), 45, 31 ,292 RTME 131 Handshake CO+C1 


130 Handshake C2 
130 Handshake S0+S1+32 
158 connect(’ hls’ ) 
70 Window Acknowledgement Size 5000000 
289 Set Peer Bandwidth 5000000, Dynamic|Set Chunk Size 4096|_resul 
99 releaseStream( mystream ) 
95 FCPublish( mystream ) 
87 createStream'() 
95 result() 


171 AMFO Command 
i0 Set Chunk Size 
197 AMFO Data 

. 157. 252 98 Video Data 


,151. 252 l415 Videe Data 


23 一 62 ”RTSP 与 RTMP 协议 的 握手 交互 流程 对 比 
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对 于 另外 一 些 协 议 ,其 状态 机 、 对 话 ( dialog ) 、 会 话 (session ) .事务 (transaction) .定时 带 
等 则 更 为 核心 和 底层 。 例 如 视频 监控 和 视频 会 议 广 沁 使 用 的 SIP 协议 ,其 核心 就 是 状态 机 
机 制 ,超时 机 制 和 事务 机 制 等 。 和 学习 这 样 的 协议 ,一 定 要 深刻 理解 其 内 部 机 理 。 
下 面 我 们 会 根据 上 述 思想 介绍 基于 传输 层 UDT 的 流 媒 体 “ 专 属 " 协 议 SRT 、 音 视频 封装 
容 融 协议 和 RTP 协议 的 加 密 机 制 (SRTP) .视频 会 议 协 议 族 以 及 视频 安防 行业 相关 协议 。 
23.3.1.1 SRT 协议 
SRT( Secure Reliable Transport ,安全 可 徘 的 传输 ) 是 一 种 开源 的 音 视 频传 输 协 议 ,这 包含 
了 两 层 含义 :( 这 是 传输 层 协议 ;人 这 是 音 视 频 “ 专 属 " 协议。SRT 是 由 Haivision 公司 和 
Wowza 共同 创建 的 SRT 联盟 所 发 起 的 互联 网 传输 协议 这 也 就 代表 了 第 三 层 含义 .这 是 一 种 
适用 于 互联 网 的 协议 ( 当然 也 适合 局 域 网 ,但 在 局 域 网 下 可 以 选择 其 他 更 好 的 传输 协议 ) 。 
SRT 是 一 种 基于 UDT 的 协议 并 且 延 续 了 UDT 的 拥塞 控制 机 制 ,其 基本 出 发 点 是 为 了 解 
决 UDT 的 传输 延迟 局 的 问题 ,能 够 处 理 长 时 间 的 网 络 延 运 。SRT 也 具有 很 蜗 的 适 配 性 ,由 
于 SRT 与 本 身 的 负载 无 关 , 只 要 能 够 使 用 UDP 传输 的 数据 报 文 都 可 以 使 用 SRT 传输 ,因此 
可 以 文 持 多 种 流传 输 ,并 文 持 多 个 并 发 流 。 除 此 之 外 SRT 协议 还 具有 以 下 特性 : 
> 穿 透 特性 :与 UDT 一 样 ,SRT 协议 支持 防火 墙 和 私 网 穿 透 。 
> UDP 兼容 性 :与 UDT 一 样 ,任何 能 够 羔 容 UDP 的 数据 都 可 以 承载 于 SRT 之 上 。 
> 时 间 同 步 特性 :每 个 SRT 数据 包 孝 具备 由 发 送 闹 设置 的 高 精度 时 间 鹤 ,这 个 时 间 稚 可 
以 被 接收 闯 解 但 。 传 输 过 程 中 上 下 游 之 间 的 延迟 可 以 通过 时 间 戳 精确 和 擎 握 。 
> 直接 建立 连接 :可 以 在 发 送 端 和 接收 端 之 间 建 立 连接 而 无 需 中 间 的 中 转 服务 带 , 消 除 
了 中 心 的 瓶 贷 进 而 减少 了 延迟 。 
> 使 用 便捷 :SRT 协议 具有 免费 开源 的 基于 API 的 代码 库 , 并 有 具有 日 己 的 开源 社区 。 
下 面 我 们 来 看 SRT 协议 的 关键 工作 流程 。 
1. 握手 和 信息 交换 
SRT 提供 了 三 种 不 同 的 担 手 协商 模式 , 即 调用 模式 、 侦 听 器 模式 和 汇聚 模式 。 
> 调用 模式 有 点 类 似 TCP 的 客户 疹 , 即 一 个 SRT 端点 向 男 一 个 已 知 了 P 地 址 和 UDP 端 
口号 的 端点 发 起 连接 请 求 。 
> 侦 听 希 模 式 有 点 类 似 TCP 的 服务 应 , 即 本 病 监 视 传 人 的 连接 请 求 ,等 每 来 日 调用 模式 
设备 的 连接 。 
> 汇聚 模式 比较 类 似 UDT 的 会 合 连接 模式 ,两 个 SRT 病 点 都 同时 充当 调用 者 和 侦 听 
者 ,也 都 由 本 端 向 对 端 发 起 连接 请 求 ,以 便 穿 透 私 网 或 者 防火 墙 。 
SRT 协议 每 次 握手 时 都 要 进行 双 回 确认 ,通过 安全 Cookie 对 之 前 已 经 建立 的 对 端 标 识 
和 密码 进行 验证 。 握 手 完成 后 ,双方 交换 各 日 的 功能 和 配置 ,以 便 让 对 端 明 了 日 己 的 能 力 
集 。 如 果 要 对 音 视 频数 据 进行 解密 ,也 可 以 在 这 期 间 交 换 加 密 密 铀 。 
2. 使 用 ARO 机 制 传输 数据 
在 ARQ( Automatic Repeat-Request , 日 动 重 传 请 求 ) 机 制 下 发 送 病 可 以 根据 接收 端的 请 
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求 重 新 发 送 传输 过 程 中 丢失 的 包 。 图 23 -63 对 比 了 在 未 纠 错 .前 向 纠 错 (FEC) 和 AROQ 三 种 
机 制 下 的 传输 方式 ,可 以 看 出 ,FEC 机 制 会 在 链 路 质量 和 状态 恨 好 的 情况 下 增加 传输 内 容 ， 
降低 了 传输 的 有 效 性 ,并 进而 导致 额外 的 延 时 。 


Packet 发 送 端 未 纠 错 机 制 Paeket 接 收 请 收 到 后 已 丢 包 


luil ul 
于 包 壬 包 


Packet 发 送 端 FEC 机 制 Packet 接 收 端 采用 机 制 方式 还 原 


E E E | E 
ce | 图) i111 | CC | | 
丢 包 


丢 包 还 原 


Packet 发 送 端 ARQ 方 式 Packet 接 收 端 采用 ARQ 机 制 还 原 
R 


etransm lssionRequest 
| I | i | | l 中 l | | 
去 包 丢 包 还 原 


23 -63 未 纠 错 FEC 与 ARQ 机 制 下 的 传输 比较 (图 片 来 自 CSDN) 


ARQ 是 一 种 有 的 放 矢 的 纠 错 机 制 。 在 正确 的 ARQ 机 制 下 每 个 数据 包 都 会 被 赋予 一 个 
唯一 的 序列 号 ,接收 闯 根 据 这 些 序 列 号 判断 是 否 接收 到 了 全 部 数据 包 。 如 采 接 收 闪 在 此 过 
程 中 发 现 丢 包 则 可 以 创建 丢 包 序列 号 的 列表 并 发 回 发 送 端 ,发 送 问 通过 这 个 列表 重 发 丢失 
的 包 ,在 网 络 拥塞 时 这 个 过 程 可 以 重复 多 次 。 对 比 FEC 机 制 ,ARQ 机 制 提高 了 数据 传输 的 
有 效 性 ,在 网 络 状 态 恨 好 的 情况 下 与 未 使 用 纠 错 策略 的 传输 方式 无 异 。 

不 过 ARQ 机 制 要 求 在 发 送 端 和 接收 问 具 备 较 大 的 缓冲 区 ,一 则 是 用 于 发 送 缓存 数据 包 
以 便 重 发 ,二 则 也 是 为 接收 端 对 数据 排序 和 纠 错 提供 缓冲 空间 。 因 此 ARQ 机 制 是 一 种 “以 
空间 换 时 间 ” 的 机 制 。 

23.3.1.2 SRTP/SRTCP 

SRTP/SRTCP 是 对 RTPZRTCP 协议 的 升级 。SRTP (Secure Real-time Transport Protocol, 
安全 实时 传输 协议 ) 提供 了 传输 数据 加 密 、 消 息 认证 完整 性 保护 和 重 放 保 护 等 服务 。 与 
RTP 一 样 ,SRTP 也 是 基于 TCPZUDP 的 应 用 层 协议 (SRTP over TCPAUDP) ,在 实践 中 以 基于 
UDP 的 方式 居多 。 目 前 思科 研发 的 libSRTP 是 SRTP 协议 的 开源 版 本 。 

1. 搬 盐 加 密 

在 介绍 SRTP 之 前 我 们 先 介绍 一 下 什么 是 撒 盐 (salt) 加 密 。 撤 盐 加 密 是 一 种 保护 对 象 
机 密 性 的 加 密 方 式 , 用 接地 气 的 语言 来 表述 束 是 : 当 用 户 注 册 时 ,在 密码 上 撤 一 把 盐 生 成 一 
种 味 书 并 记 住 这 种 味道 ; 当 用 户 再 次 登录 时 ,在 输入 的 密码 上 撤 同 一 把 盐 也 会 生成 一 种 味 
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道 ,此 时 闻 一 闻 两 种 味道 是 否 一 致 , 一 致 则 说 明 登 录 没 有 被 仿冒 。 

在 计算 机 系统 中 ,用 户 注 册 时 系统 随机 生成 一 个 salt 值 ,并 将 密码 与 salt 连接 起 来 产生 
敬 列 值 ,最 后 将 该 散 列 值 和 salt 值 都 存储 于 数据 库 中 。 用 户 登 录 时 ,系统 会 从 本 地 的 Cookie 
中 寻找 与 用 户 名 /密码 匹配 的 salt 值 ,并 与 用 户 密 码 进行 连接 与 散 列 ,以 此 来 判断 该 散 列 值 
是 否 与 注册 时 生成 的 散 列 人 一 致 。 

在 撤 盐 技术 中 ,“ 盐 ” (salt) 是 由 系统 生成 的 ,即便 两 个 用 户 使 用 了 同一 个 密码 ,但 由 于 
系统 为 它们 生成 的 salt 值 不 同 , 因 此 他 们 的 散 列 值 也 是 不 同 的 。 就 是 靠 这 样 一 种 原理 实现 
了 对 于 对 象 机 密 性 的 保护 。 

2. SRTP 报 文 格式 

SRTP 分 为 认证 区 和 加 蜜 区 两 大 部 分 。 认 证 区 对 应 于 SRTP 报 文 的 头 域 ,这 部 分 与 RTP 
头 无 异 。 加 密 区 则 主要 是 指 RTP 负载 区 ( payload ) 和 尾部 的 扩展 字段 (padding ) ,其 中 扩展 字 
段 包括 一 个 可 选 字 段 和 一 个 必 选 字段 ,如 下 所 示 ; 

> SRTP MKI: 这 是 可 选 字 段 ,表示 主 密 钥 标识 符 。 

> Anthentication Tag: 这 是 必 选 字段 ,代表 了 认证 标签 ,在 发 送 效 据 包 时 有 用 。 

SRTP 包 的 报 文 格式 如 图 23 -64 所 示 。 


CC 
01121314)s1el7 4o 12l314 slel7 ody2l3lslslelrlo zala[sjsj2. 
时 间 堆 (32 位) 

SSRC 标 识 符 (32 位 ) 

CSRC 标 识 街 (n 个 32 位 ) 


RTP extension( bgj 选 ) 


加 蜜 的 payload( 未 尾 可 能 包含 RTP padding 和 RTP pad count) 


SRTP MKI( 可 选 1)， 主 密 钥 标识 (master key identifiermy)， 是 用 来 生成 session 加 车 铭 钥 的 随机 位 串 标 识 符 


认证 标签 (Authentication Tae) 
23 -64 SRTP 报 文 格式 
在 传输 时 ,SRTP 报 文 的 认证 区 不 加 密 ,加密 区 可 加 密 也 可 不 加 密 。 
3. SRTP 的 加 密 
在 SRTP 中 ,发 送 端 和 接收 端 都 要 为 每 个 SRTP 流 维护 一 份 加 密 环 境 , 这 个 加 密 环 境 就 
是 加 密 的 状态 信息 。 每 个 加 密 环 境 都 有 目 己 的 上 ,这 个 ID 由 同步 源 (SSRC) .目的 地 址 和 病 
口 决 定 ( Context ID = < SSRC DestAddress DestPort > ) ,由 此 我 们 可 以 看 出 加 密 环境 是 与 
SRTP 流 绑 定 的 。 每 个 流 中 ID 不 匹配 的 SRTP 包 都 会 被 丢弃 。 
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加 密 环 境 保存 了 变换 相关 参数 和 变换 无 关 参 数 。 所 谓 变换 相关 参数 是 指 与 具体 使 用 的 加 
蜜 /认证 算法 有 关 的 参数 ,例如 黎 码 组 大 小 .会话 密 钥 ,初始 化 回 量 数据 等 ;变换 无 关 人 参数 日 然 
就 是 与 具体 加 密 认 证 算法 无 关 的 参数 了 ,例如 循环 计数 顺 .序列 号 等 ,如 图 23 -65 所 示 。 


32 位 ， 用 于 记录 RTP 序 列 号 有 多 少 次 超过 65535 而 佑 置 堆 
_ 循环 计 效 嚣 (ROC ) _96/ 根据 ROC 产 生 SRTP 包 索引 index = 2^16 * ROC + SEQ ，SEQ 为 


| ”RTP 数据 包 序列 号 ， 从 数据 包 中 获取 
序列 号 : 保存 接收 端 收 到 的 最 高 RTP 序 列 号 
加 密 算法 标识 符 : 表示 使 用 哪 种 加 密 算法 
消息 认证 算法 标识 符 : 表示 使 用 哪 种 认证 算法 
_ 启 用 了 消息 认证 的 接收 端 需 要 保存 该 重 放 列表 
二 二 二 > 本 重 放 列 表 有 记录 最 近 收 到 并 通过 认证 的 SRTP 数 据 包 索引 号 ， 该 列表 的 长 度 不 得 
MKI 指 示 器 : 表示 包 中 是 否 有 MKI 
MKI 值 : 发 送 方 当前 使 用 的 KMI 的 值 
| 主 密 钥 : 主 密 钥 必须 具有 随机 性 和 保密 性 
| 加 密会 话 密 铀 和 认证 会 话 密 钥 的 长 度 
图 23 -65 加 密 环境 中 的 变换 无 关 参 数 


SRTP 中 的 密 钥 分 为 主 密 钥 ( master key) 和 会 话 密 钥 ( session key ) 两 种 。 
主 密 钥 用 于 生成 相应 的 会 话 密 钥 。 在 一 个 加 蜜 环境 下 可 以 存在 多 个 主 密 钥 ,至 于 处 理 
SRTP 包 时 到 底 使 用 哪个 主 密 钥 可 以 采用 以 下 两 种 方式 来 做 出 决策 : 
> 由 SRTP 包 中 的 MKI 字段 指定 。 这 个 字段 原本 就 是 用 于 确定 加 密 方 式 的 ,只 是 这 个 
字段 为 可 选 字段 ,局 用 后 会 增加 包 的 长 度 , 从 而 挤 压 有 效 包 内 容 的 长 度 。 
> 可 通过 加 密 环 境 中 的 < From ,To > 为 每 一 个 主 密 钥 指定 所 处 理 数 据 包 的 索引 范围 , 超 
出 这 个 范围 则 主 密 钥 失效 。 这 种 方式 多 应 用 于 单 向 和 双向 通信 中 ,多 向 通信 一 般 玉 
用 前 一 种 方式 。 < From,To > 是 由 两 个 48 位 的 时 间 惟 组 成 的 ,表示 主 密 铀 的 有 效 期 
(起 止 时 间 ) 。 
会 话 密 钥 在 加 密 传 输 时 使 用 ,用 于 RTP 包 的 负载 加 密 ( 加 密 变 换 ) 或 消息 认证 。 会 话 密 
钥 由 主 密 钥 、 主 salt 密 钥 推导 率 、 会 话 密 钥 长 度 和 SRTP 包 的 索引 号 决定 ,会 话 密 钥 必 须 使 
用 密 铀 生成 器 生成 ,如 图 23 -66。 


session encr_key 


23 一 66 SRTP 中 各 种 密 钥 的 产生 过 程 


SRTP 默认 使 用 AES 作为 加 密 算 法 ,使 用 HMAC-SHAI1 算法 进行 消息 认证 和 完整 性 保护 。 
我 们 先 来 看 看 加 密 过 程 中 的 关键 信息 : 
> key_derivation_rate: 生 成 会 话 密 钥 的 速率 ,必须 是 |1,2,4,…,2°24| 中 的 一 个 , 且 必 
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须 为 2 的 需 数 。 
> ROC(rollover counter ) :记录 序列 号 的 重 置 次 数 ,用 来 计算 SRTP 包 的 索引 ,index = 
2°16 * ROC +SEOQ 。 

下 面 我 们 具体 考察 数据 传输 时 对 于 消息 的 加 解密 过 程 。 

(1) 发 送 端 加 密 流 程 如 下 : 

Q 确定 加 密 上 下 文 。 

加 确定 要 发 送 的 SRTP 数据 包 的 索引 。 

(3 根据 SRTP 包 的 索引 确定 主 密 铀 和 主 salt。 

出 根据 密 钥 管理 协议 中 的 参数 集 ( 主 密 钥 . 主 salt 、 密 钥 推导 率 等 ) ,通过 密 钥 生成 器 生 

(3) 使 用 加 蜜 上 下 文中 指定 的 加 密 算 法 会话 密 钥 会话 salt 对 RTP 的 负载 进行 加 密 。 

@ 车 MKI 标志 位 为 1, 则 加 入 MKI 字段 。 

QD 对 于 消息 加 密 ,使 用 当前 的 ROC .加 密 上 下 文中 指定 的 加 密 算法 和 会 话 密 钥 计算 认 
证 标志 ,并 填充 SRTP 包 的 认证 标签 字段 。 

@@ 更 新 ROC 和 数据 包 索 引 。 

(2) 接收 端 解密 流程 如 下 .: 

中 确定 加 密 上 下 文 。 

@) 根据 公式 计算 收 到 的 SRTP 数据 包 的 索引 。 

(3 确定 主 密 钥 和 主 salt: 通 过 MKI 标志 确定 ,或 者 通过 SRTP 包 的 索引 确定 。 

(9 根据 主 密 钥 . 主 salt 、 密 钥 推 导 率 等 参数 确定 会 话 密 铀 和 会 话 salt。 

(5) 进行 重 放 检查 :利用 包 索 引 和 重 放 列表 来 检查 重播 , 硅 为 午 播 数据 包 则 丢弃 并 记录 
到 日 志 中 。 

执行 认证 检查 ,如 果 不 匹 配 则 丢弃 并 记录 到 日 志 中 。 

QW 利用 会 话 密 钥 解密 SRTP 包 中 的 负载 。 

@@ 根据 包 索 引 更 新 ROC .最 大 序列 号 等 参数 ,必要 时 更 新 重 放 列 表 。 

(9) 从 数据 包 中 删除 MKI 和 认证 标签 。 

除了 加 密 与 认证 ,SRTP 也 具备 防 重 放 功 能 。SRTP 建议 接收 端 维护 收 到 的 包 索 引号 ,并 
将 其 与 每 个 新 收 到 的 消息 作对 比 ,接收 端 只 应 接收 过 去 没有 被 播放 过 的 新 消息 包 ,接收 端 会 
根据 这 个 原理 进行 重 放 检 查 。 

4. SRTCP 包 

SRTCP 包 相 当 于 SRTP 的 RTCP 控制 包 , 默认 使 用 与 SRTP 包 相 同 的 加 密 上 下 文 。 
SRTCP 也 会 独立 维护 一 个 单独 的 重 放 列表 以 防止 重 放 攻 击 。SRTCP 与 SRTP 使 用 相同 的 主 
密 钥 ,但 是 会 话 密 钥 是 不 同 的 ,而 且 SRTCP 对 主 密 钥 也 是 独立 计数 的 。 根 据 这 个 计数 值 可 
以 获取 使 用 该 主 密 钥 处 理 过 的 SRTCP 包 的 数量 。 

SRTCP 包 与 普通 的 RTCP 包 一 样 ,都 具有 5 种 类 型 (如 表 23 -8 所 示 ) ,其 报 文 格式 如 
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图 23 -67 所 示 。 
表 23-8 SRTCP 包 的 $5 种 类 型 


SR( Sender Report ) 


RR( Receiver Report ) 


SDES( Source Description ) 
下 结束 传输 


特定 应 用 


由 于 RTCP/SRTCP 包 必 须 以 复合 
包 ( Compound Packet) 的 形式 发 送 (目的 


是 提高 发 送 效 率 ) ,因此 每 次 发 送 至 少 发 送 方 信息 
要 包含 两 个 单独 的 RTCP/SRTCP 包 。 报告 块 ] 


复合 SRTCP 的 建议 格式 如 下 : 
> 加 密 前 缀 :需要 对 复合 包 加 密 时 
则 进行 前 级 加 密 。 SRTCP MKI( 可 选 ) 
> SR 或 RR :在 复合 包 中 的 第 一 个 认证 标签 
RTCP 包 必 须 为 状态 通告 包 , 以 23 -67 单 SRTCP 报 文 格式 
便 进 行 报 文 头 校 验 。 
> 额外 的 RR 包 : 如 果 接 收 统计 信息 源 数 目 超过 31 , 则 需要 在 初始 的 报告 数据 包 后 添加 
额外 的 RR 包 。 
> SDES :在 复合 包 中 必须 包括 一 个 包含 CNAME 项 (代表 一 个 客户 端的 ID ,无 论 一 个 客 
户 端 有 几 路 流 , 其 CNAME 均一 致 ) 的 SDES(Source Description , 源 摘 述 ) 包 ， 其 他 的 
SDES 根据 应 用 的 需要 都 是 可 选项 。 
> BYE 或 APP: 其 他 RTCP 数据 包 ( 包 括 未 定义 的 ) 可 以 以 任意 顺序 添加 到 复合 包 中 。 但 
是 BYE 必须 放 在 复合 包 的 最 后 , 且 须 包含 要 终止 的 流 的 SSRCZCSRC (特约 信 源 ) 值 。 
5. DTLS_SRTP 
DTLS_SRTP 是 DTLS 的 一 种 扩展 形式 ,是 一 种 将 SRTP 的 加 解密 和 DTLS 的 密 钥 交换 与 
会 话 管理 技术 相 结 合 的 机 制 。 因 此 ,从 DTLS 的 角度 看 ,DTLS_SRTP 为 应 用 数据 提供 了 新 的 
数据 格式 (SRTPASRTCP) ; 而 从 SRTP 的 角度 看 , 它 提 供 了 一 种 新 的 密 钥 协商 方法 。 由 于 密 
钥 等 参数 是 DTLS 握手 协商 得 到 的 ,因此 该 过 程 是 保密 的 , 比 和 用 的 诸如 SDP 的 方式 更 不 易 
被 破解 。 
DTLS_SRTP 具有 以 下 特征 : 
> 应 用 层 数据 的 加 解密 仍然 是 由 SRTP 完成 的 。 
> DTLS 的 握手 过 程 为 SRTP 加 解密 过 程 协 商 使 用 哪 种 密 钥 。 
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> 除了 应 用 数据 的 加 密 格 式 为 SRTP 之 外 ,其 他 记录 层 的 报 文 (例如 控制 信息 等 ) 仍然 


为 普通 的 DTLS 格式 ， 
> 当 发 送 SRTP 格式 的 应 用 层 数据 时 会 耳 接 跳 过 DTLS 加 密 层 而 直接 透 传 到 传输 层 进 
行 发 送 。 


接收 应 接收 到 DTLS_SRTP 报 文 后 会 进行 解 复 用 ,这 是 在 传输 层 实现 的 , 解 复 用 时 根据 
包头 特征 (第 一 个 报 文 的 首 字 节 ) 进 行 区 分 : 

> 0 ~1: 表 明 可 能 是 STUN 报 文 ; 

> 20 ~63 :表明 可 能 是 DTLS 记录 层 报 文 ; 

> 128 ~ 191 :表明 可 能 是 RTP/SRTP 报 文 。 

23.3.1.3 音 视频 封装 容器 

1. 视频 的 流 态 和 文件 态 封 装 

音 视 频 分 为 两 种 状态 : 流 态 和 文件 态 ,其 本 质 就 是 处 于 传输 中 的 状态 和 落 盘 (内 存 或 硬 
盘 ) 后 的 状态 。 这 两 种 状态 下 对 于 音 视 频 的 封装 要 求 是 不 一 样 的 。 以 视频 为 例 , 流 态 下 的 封 
装机 制 要 表现 视频 的 序列 性 和 时 间 性 ,也 要 表现 出 视频 的 负载 特性 和 源 特 性 ,例如 RTP 封装 
视频 时 RTP 头 就 要 表现 序列 号 .时 间 惟 、 负 载 类 型 .同步 源 (SSRC) 等 (如 图 23 -68 所 示 )， 
RTCP 则 需要 反馈 丢 包 等 QoS 信息 。 以 上 这 些 信息 有 助 于 接收 端 发 现 乱 序 和 丢 包 ,并 同步 播 
放 速 度 、 了 解 媒 体 编码 种 类 以 及 发 送 者 的 标识 等 。 


65 PT=DynamicRIP-Type-96, SSRC=0x627F51AA, Seq=441, Time=576533195, Mark 


1455 PT=DynamicRTP-Type-96, SSRC=0x627F51AA, Seq=442, Time=576533195 
1456 PT=DynamicRTP-Type-96, SSRC=0x627F51AA, Seq=443, Time=576533195 
1456 PT=DynamicRTP-Type-96, SSRC=0x627F51AA, Seq=444, Time=576533195 
1456 PT=DynamicRTIP-Type-96, SSRC=0x627F51AA, Seq=445, Time=576533195 
1456 PT=DynamicRTIP-Type-96, SSRC=0x627F51AA, Seq=446, Time=576533195 
1456 PT=DynamicRTP-Type-96, SSRC=0x627F51AA, Seq=447, Time=576533195 
1456 PT=DynamicRTP-Type-96, SSRC=0x627F51AA, Seq=448, Time=576533195 
1456 PT=DynamicRTP-Type-96, SSRC=0x627F51AA, Seq=449, Time=576533195 
1456 PT=DynamicRIP-Type-96, SSRC=0x627F51AA, Seq=450, Time=576533195 


图 23 一 68 ”RTP 对 于 流 态 视频 的 封装 


这 里 要 注意 的 是 ,并 不 是 说 RTP 就 不 能 用 于 封装 文件 态 的 音 视频 数据 。 例 如 在 存储 实 
时 流 媒体 数据 时 就 可 采用 RTP 来 封装 ,只 要 能 将 包 和 包 之 间 界 定 清楚 就 没什么 不 可 以 的 。 

在 文件 态 下 一 般 就 不 需要 表现 序列 号 、 同 步 源 和 负载 类 型 这 些 信息 了 ,但 时 间 稚 还 是 要 
保留 的 。 另 外 文件 态 的 视频 是 供 播放 器 播放 的 ,因此 一 般 在 文件 的 开头 存放 关于 解码 的 信 
息 ,例如 采用 什么 编码 格式 .分辨 率 和 帧 率 , 视 频 本 身 是 否 有 封装 .是否 有 音频 和 字幕 .总 揪 
放 时 长 等 。 而 时 间 截 信息 是 一 定 要 保留 的 ,至 少 在 视频 本 身 的 封装 中 要 体现 DTS( 解码 时 间 
稚 ) 和 PTS( 呈 现时 间 戳 ) ,否则 播放 器 可 能 无 法 按照 正常 帧 率 来 解码 和 泻 染 。 

典型 的 文件 态 封装 结构 如 FLV .MP4 等 ,被 称 为 “视频 容器 " ,如 图 23 - 69 和 图 23 - 70 
所 示 。 


图 :FLW structure 


-Fle Header [0x00000000] 
Sgnature: FLY 
Vergon: 1 
has sudio: 1 
has video: 1 
haeder dre: a 
First Tag Size [0x00000009] : 0 
Bl- Metadata Tag [0x0000000D] 
四 - Tag Header [0x00000000] 
由 .Tag Data [0x00000018] 
Pre Tag Size [Ox00000421] ; W444 
日- Video Tag1 [0x00000429 
Tag Header [0x00000425] 
Tag Data [0x00000430] 
-Pre Tag Size [0x0000045E] : 57 
Bl- Audio Tag2 [0x0000046 习 
-Tag Header [0x0000046 习 
Tag Data [0x00000460] 
一 Pre Tag Sire [0x00000476] : 20 
四 -Video Tag3 [0x0000047A] 
一 Tag Header [0x0000047A] 
一 Tag Data [0x00000489 
PreTagSze [bx00001BE 习 : 5992 
日 -Audio Tag4 [0x00001BE6] 
Tag Header [0Dx00001BE6] 
一 Tag Data [0x00001BF1] 


= Bra Tan Ci [NNNnNnNn i -2 


日 -多 ROOT 


_ 国 | EtYT 
一 励 free 
-加 maat 
田 : 口 而 恬 丰 于 


D0000000: 
Dx00000010: 
Dx00000020: 
0x00000030: 
Dx00000040: 
Dx00000050: 
Dx00000060: 
Dx00000070: 
Dx00000080: 
0x00000090: 
Dx000000A0: 


Dx000000B0: 
Dx000000C0: 
Dx000000D00: 
Dx000000E0: 


Dx000000F0: 
Dx00000100: 
Dx00000110: 
Dx00000120: 
Dx00000130: 
Dx000001 40: 
Dx00000150: 
DxO00000160: 
Dx000001 70: 
Dx00000180: 
Dx00000190: 
Dx000001A0: 


jxUUUUUTGU: 


| mpdinfo | mpttool | 


dio. 

至 本 再 卫 记 疙 二 是 
eharmel : 
bh 1 


| Ib teate: 


fy ames: 
fps: 


otal tlme: 
ur at on: 
化 于 而 本 号 己 总】 二 


axaUdi Osilre: 


di os aumpl mm 


的 间 基本 1 记 让 总 至 下 让 电 : 


wi deosampl erm; 


172667--[172000 
172867 

1000 

264 

T430 

45332 

2590 
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2. 视频 的 打包 封装 
视频 还 有 一 种 封装 方式 ,相对 于 上 面 两 种 容 需 更 为 底层 (内 层 ) ,这 就 是 PES/TS/PS 封 

装 ,有 时 也 称 为 视频 打包 。 打 包 封 装 居于 流 态 或 者 文件 态 封装 的 内 层 。 其 中 PES ( Packet 
Elementary Stream ) 称 为 打包 的 基本 个 流 , 这 种 公 流 也 可 看 作对 视频 基本 人 码 流 (Elementary 
Stream ,ES ) 的 封闭 ;TS (Transport Stream ) 就 是 传输 流 , 其 每 个 包 的 长 度 郡 是 相等 的 ; PS 
(Program Stream ) 就 在 广 目 流 ep 鞋 。 后 两 种 是 对 视频 数据 的 复合 封装 ,也 就 
是 说 TS 和 PS 包 中 可 以 混合 音频 文 种 数据 的 流 态 也 被 称 为 “复合 流 ”。 

1) 打包 的 基本 码 流 (PES ) 

ES 首先 被 打包 成 长 度 不 同 的 PES 包 , 每 个 PES 包 的 最 大 长 度 为 64 KB ,其 中 开头 为 6B 
的 PES 头 ,其 结构 如 图 2 -71 所 示 。 


幕 等 信息 ,这 


6B 最 大 64 KB 


| 


23 -71 PES 包 及 包头 结构 
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在 PES 涉 和 PES 媒体 负载 数据 之 间 还 有 一 个 Optional PES Header( PES 可 选 头 ) ,这 里 
面 存放 了 一 些 更 重要 的 信息 ,这 些 信息 对 于 解 公有 重要 作用 ,例如 DTS 和 PTS 均 存 放 在 这 个 
可 选 尖 结构 中 ,如 图 23 -72 和 图 23 -73 所 示 。 因 此 它 虽 然 叫 作 * 可 选 头 ” ,但 还 真是 一 点 都 


-| 有 EE 人 少 


PES optional 
packet | PES PES packet data bytes 
length | HEADER 


slream 


data 有 ” ed stufting 
: 10n 
scrambline a allgnment el bytes 


control ”| indicator - Mou (OxFF) 


additional previous 
copy info | PES 
CRC 


tional 
$ flae 机 
> fields 
PES pack progIam p-sTD PES PES 
private | header | packet puffe 人 extension 
data field | seq cntr length field data 
128 8 8 16 


图 23-72 PES 可 选 头 结构 


人 
0x000000F4 PES Packet [Videol { stream id = 0xE0 } 
packet length = 18 
PES scrambling control= 0 
PES priorlty = 1 
data alignment indicator = 1 
copyright = 0 
original or copy = 
PTS_DTS_flags = 2 
ESCR flag = 0 
ES rate flag= 0 
DSM trick_mode flag= 0 
additional_ copy_info flag= 0 
PES CRC flag=0 
PES extension flag= 0 
PES header data length = 7 
PTS =- 5: 8:53: 117[ 1667 9380 591) 


23 一 73 ”实际 视频 文件 中 的 PES 包头 和 可 选 头 结构 
从 PES 头 结构 中 我 们 可 以 看 到 起 始 码 , 流 ID( 用 以 区 分 音频 还 是 视频 ) 和 PES 整个 包 体 


的 长 度 等 重要 参数 。PES 包 的 分 割 一 般 以 帧 为 单位 ,如 果 某 一 帧 小 于 等 于 64 KB , 则 封装 到 
一 个 PES 包 内 ;如 果 该 帧 大 于 64 KB , 则 以 这 个 最 大 值 为 步 长 分 割 并 封装 到 在 干 PES 包 内 。 
因此 我 们 经 党 看 到 高 清 视 频 流 的 关键 帧 会 被 分 成 多 个 PES 包 。 

2) 传输 流 (TS ) 

TS 的 全 称 是 MPEGC2-TS ,主要 应 用 于 实时 传送 的 节目 ,比如 实时 广播 的 电视 节目 。 这 是 
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因为 TS 的 特定 信息 包 中 携带 频道 信息 ,可 以 基于 这 些 信息 区 分 视频 流 隶 属于 哪个 频道 
中 TS 包 藉 中 的 数据 包 识 别 号 就 代表 了 频 忆 信息 , 解 复 用 时 非常 方便 ， 

MPEG2 标准 中 规定 TS 传输 包 的 长 度 为 188 字 节 ,其 中 包头 为 4 字 节 ,负载 为 184 字 节 ,如 
图 23 -74 所 示 。 但 通信 媒介 会 为 包 添 加 错误 校 验 字 节 ,从 而 有 了 多 于 188 字 节 的 包 长 。 


wim names, 一 一 > 一 一 188 字 节 一 一 >| 
净 葵 | 包头 | ” 净 荷 | 包头 | 净 茶 


Ee 子 量 | 传输 差 a pk 数据 包 识别 | 号 | 传 ; 
站 下 名 一 区 se PID 


指示 


TS 人 码 流 


图 23-74 TS 包 的 包头 结构 


在 TS 中 还 包括 了 几 种 专 有 的 数据 包 , 这 些 包 的 信息 描述 了 节目 解 复 用 相关 的 重要 信 
息 ,被 称 为 节目 专 有 信息 (PST) ,这 些 信息 包 可 以 管理 各 种 类 型 的 TS 数据 包 。DVB 标准 对 
PSI 进行 了 扩展 , 称 为 SI。PSI 具有 以 下 几 种 形式 (SI 则 比 以 下 形式 还 要 丰富 ) : 

> 节目 关联 表 ( Program Association Table,PAT) :PAT 给 出 了 一 路 TS 包含 了 多 少 套 市 

日 ,并 同时 给 出 了 它 与 PMT 中 PID 的 对 应 关系 ,因此 在 多 路 复 用 中 最 为 重要 。 
> 节目 映射 表 ( Program Map Table,PMT) :PMT 日 中 具体 的 组 成 情况 与 
音 视频 PID 的 对 应 关系 ,在 多 路 复 用 中 也 非常 重要 。 

> 条 件 接收 表 ( Conditional Access Table ,CAT) :用 于 将 一 个 或 多 个 专用 的 ECM( 授权 

控制 信息 )AEMM( 授权 管理 信息 ) 流 分 别 与 唯一 的 PID 相关 联 。 

> 网 络 信息 表 ( Network Information Table ,NIT ) :用 于 描述 整个 网 络 , 例 如 包含 了 多 少 

路 TS 这些 流 的 频 点 和 调制 方式 等 信息 。 

SI 则 还 包括 SDT( 业务 描述 表 ) .BAT( 业务 群 关联 表 ) 、EIT( 事件 信息 表 ) 、RST( 运行 状 
态 表 ) .TDT( 时 间 和 日 期 表 ) 等 信息 。 在 广电 业务 中 一 般 也 采用 SI 作为 专 有 信息 载体 ,因为 
其 更 为 丰富 。 

图 23 -75 是 一 个 PAT 和 PMT 关系 的 例子 ,可 以 看 出 该 TS 中 包含 了 4 路 市 
(Prosgram ) ,每 一 路 节目 都 作为 一 个 Program 包含 在 PMT 中 。 图 23 一 76 则 展示 了 一 个 TS 
和 包 的 实例 。 

3) 节目 流 ( 了 PS ) 

在 PS 方式 封 站 的 H.264 视频 流 中 ,一 般 将 SPS 、PPS SEI IDR 等 Nalu 封 痛 为 一 个 包 , 例 
如 将 SPS .PPS .SEI 和 工 帆 的 开始 部 分 等 信息 统一 封装 为 一 个 PES 包 。PS 包 会 对 PES 包 进 
行 外 层 包装 ,由 于 PS 包 没 有 限制 长 度 , 因 此 大 多 数 时 候 可 以 将 一 个 大 帧 (例如 SPS 、PPS .SFI 
+ 整个 I 帆 ) 所 分 成 的 所 有 PES 包 封 装 成 一 个 PS 包 以 减少 解 封装 的 复杂 度 。 同 时 , 当 包 含 
音频 数据 时 可 以 直接 将 音频 封装 成 PES 包 附 加 在 视频 PES 包 的 后 面 。 

对 于 关键 帧 和 非 关 键 帧 ,PS 包 封 装 的 顺序 是 不 同 的 ; 
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bs) annanan > 


> 关键 帧 的 PS 封包 层次 顺序 为 : :PS 头 1PS 系统 头 1PS 系统 映射 (System Map)1PES 头 | 
H. 264 Raw Data。 其 中 系统 头 在 当 且 仅 当 PS 包 是 每 一 个 数据 包 时 才 存 在 ,也 被 称 为 

> 站 关键 者 的 3 PS 封包 层次 顺序 为 :PS 头 1PES 头 1H.264 Raw Data。 

在 PS 系统 映射 中 (stream_type 字段 ) 定 义 了 有 具体 的 音 视频 流 类 型 ,其 取 值 为 0x10 
( MPEG4 视频 流 ) .0x1B(H.264 视频 流 ) .0x80(SVAC 视频 流 ) .0x90(G.711 音频 流 ) .0x92 
(G.722.1 音频 流 ) .0x93(G.723.1 音频 流 ) .0x99(G.729 音频 流 ) .0x9B(SVAC 音频 流 ) 。 

PS 头 和 系统 头 的 结构 如 图 23 -77 和 图 23 -78 所 示 。 

PES/ATS/PS 这 几 种 打包 方式 的 外 层 既 可 以 采用 RTP 或 容 需 方式 封装 ,也 可 以 采用 其 他 
私有 定制 的 方式 封 深 ,还 可 以 不 封装 而 卫 接 传输 ,这 取决 于 通信 双方 的 具体 业务 要 求 ,并 没 


-| PSI 
避 - 国 PAT 
= SECTIQN: 0 
坊 table_id = 0x00 (0) 
坊 section syntax_indicator = 0x01 
重 Sectiion_ leng 由 = 0x1d (29) 
坊 transport_stream _id = 0x0000 (0) 
坊 version_number = Oxle 
坊 current next indicator = Oxl1 
昼 section_number = 0x00 (0) 
局 last section number = 0x00 (0) 
忆 -- 六 programs 
蕊 NIT: program_number = 0x0, NIT_PID = 0x0010 (16) 
® |Program 1: program_number = 0x0065 (101), PMT_PID = 0x03f6 (1014) | 
电 Program 2: program_number = 0x0066 (102), PMT_PID = 0x0400 (1029) 
局 Program 3: program_number = 0x0067 (103), PMT_PID = 0x040a (1034) 
局 Program 4: program_number = 0x0068 (10), PMT_PID = 0x0414 (104) 
© CRC_32 = 0x2592dac4 


大 | Program Ox0065 (101) 
-里 SECTION: 0 
table_id = 0x02 (2) 
section syntax_indicator = 0x01 
section_length = 0x17 (23) 
program_number = Ox0065 (101) 
version_number = Ox01 
current next indicator = Ox1 
section_number = 0x00 (0) 
last_section_number = Ox00 (0) 
po _pid = 0x03f3 (1011) 
program_info length = 0x0000 (0) 
components 
图 stream_type = 0x02 (MPEG-2 video) 
局 elementary_PID = 0x03f4 (1012) 
坊 ES_info_length = 0x0000 
由 steam_ type = 0x03 (MPEG-1 audio) 
镶 elementary_PID = 0x03f5 (1013) 
咏 ES_info_length = 0x0000 
CRC_ 32 = 0xd2flica91 
日 -图 司 Program 0x0066 (102) 
白 包 SECTION: 0 
table_id = 0x02 (2) 
section syntax_indicator = 0x01 
section_length = 0x17 (23) 
program_number = 0x0066 (102) 
version_number = Ox01 
current_next indicator = 0x1 


二 
届 
号 
EE 
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EE 
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0x00000000 Transport Packet { PID = 0x0, Payload = Yes [184 Counter = 0, Start indicactor } 
0x000000BCTransport Packet { PID = 0x1001, Payload = Yes [184), Counter = 0, Start indicactor} 
Ox00000178 Transport Packet { PID = 0x100, Payload = Yes [176], Counter = 14, Start indicactor} 
Program Association Table, version 0 
Program Map Table, version 0 
0x00000184 PES Packet [Video] { stream id = WxE0 } 


Ox00000192 H264 AUD 

0Dx00000198 H264 sequence Parameter Set 

Ox000001B4H264 Picture Parameter Set 

0x000001BCI slice #0 

Ox00000234 Transport Packet { PID = 0x100, Payload = Yes [184), Counter = 15 } 
0x000002F0 Transport Packet { PID = 0x100, Payload = Yes [184), Counter = 0 


图 23-76 实际 视频 文件 中 的 TS 封包 格式 


13818 
Program 
Stream 


pack pack , pack 
header header header 


pack 
stuffing 
byte 


system 
header 


PES packet ] 


system 
header 
start 
code 


P-STD 
stream | bufter 
1d SIZe 

bound 


图 23 -77 PS 头 和 系统 头 结构 


SteamInfo | Dx00000000 Program Pack { SLCR= 2: 4A1: 12: 810 [870 S52 932], Muxhate = 83 886 [4 194 300] } 
FE:\ 符 种 抓 包 ,example 2.ps DxO000000E System Header 

Filesize: 1 335 572 header length = 12 

SE 0 

CR te a fixed flag = 0 

Parsing progress ( complete ) 一 一 一 CsPs flag= 0 


TT | op | system audio lock flag= 0 


system video lock flag= 0 
video _ bound=1 
Show Padets 一 一 一 一 一 一 packet rate restriction flag = 0 
L_ sw || oem | Stream 0XE0 
Stream 0xC0 
站 Dx00000044 PES Packet [Videol { stream id = 0xE0 } ll 
已 回 PEs mm = DxEO(224)) D00000057 H264 Seqguence Parameter Set ~ 


-加 ES (H264/AVC) O0000007D H264 Picture Parameter Set | 
Dx00000085 H264 SI y 


0x0000009D1 slice #0 | 
Dx00002057 PES Packet (Video] { stream id = DxEQ } 


DxO000406A PES Packet Video) { siream id = OxED } 
Dx0000607D PES Packet (Video) { stream id = OxE0 } 
} 


Dx00008090 PES Packet [wideol{ stream _id = 0xE0 } 
x0000A0A3 PES Packet (Video] { stream _id = 0xE0 } 
[Dx00o00AC11 Program Pack { SCR = 2: 41: 12: 843 (870 555 902], MuxRate = 83 B86 [4 194 300) 
Dx0000ACTF PES Packet Video] { stream id = DxED } 

DxO000AC32 H264 SI 
Dx0000ACA2 P slice #1 


图 23 -78 实际 视频 文件 中 的 PS 封包 格式 ( 注意 I 分 片 前 面 的 PS 头 和 系统 头 ) 
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23.3.1.4 H.323 协议 徐 
H. 323 是 由 ITU-T 开发 的 基于 IP 网络 的 实时 多 媒体 通信 协议 簇 ,也 就 是 说 ,H. 323 是 个 
协议 簇 ,而 且 是 应 用 于 多 媒体 的 协议 筷 。 这 套 协 议 簇 由 呼叫 控制 \ 流 媒体 编码 管理 控制 、 网 
络 安 全 等 一 系列 相关 的 协议 组 成 ,体现 了 集中 式 控 制 和 层次 式 控制 的 思想 。H. 323 协议 簇 
多 用 于 视频 会 议 的 接 人 与 互联 互通 ,是 视频 会 议 领域 古老 而 知名 的 协议 复 。 由 于 发 展 历史 
较 长 ,H. 323 协议 复 也 比较 庞大 和 成 熟 ,特别 是 其 可 以 与 传统 的 电话 网 对 接 ,扩大 了 其 适 
用 性 。 
1. H. 323 协议 栈 框架 
H. 323 协议 簇 在 本 质 上 是 个 协议 栈 框架 ,这 个 框架 包括 了 H. 245 控制 .H. 225.0 分 组 和 
同步 .H. 263 和 H. 264 视频 CODEC .G.711/G.722/G.728/G.729 以 及 G.723 音频 CODEC 、 
T. 120 系列 多 媒体 通信 协议 等 ,如 图 23 -79 所 示 。 
4 音频 视频 
. 5 (7.729 H.261 
DIS G.723.1 | H.263 
G.723A | H.264 


Ta 
网 络 层 


图 23 -79 了 .323 协议 栈 框架 


H.245 是 H. 323 终 问 的 核心 协议 ,承担 了 系统 控制 的 功能 ,用 于 对 H. 323 实体 进行 控 
制 操作 ,包括 呼叫 控制 (连接 的 建立 与 拆除 ) .通道 切换 与 开放 描述 逻辑 信道 内 容 等 。 因 此 ， 
整个 H. 245 协议 由 H. 245 控制 通道 .H.225.0 呼叫 信 令 信道 以 及 RAS 信道 组 成 。 

H. 245 是 主 叫 网 关 和 被 叫 网 关 之 间 的 信息 交互 协议 ,分 为 四 种 类 型 :请求 . 啊 应 .命令 和 
指示 。 其 中 请 求 和 啊 应 用 于 协议 实体 ,请 求 消息 要 求 一 个 指定 的 行动 以 及 一 个 立即 的 啊 应 ， 
而 啊 应 消息 就 是 对 请 求 的 回复 ;命令 消息 要 求 一 个 指定 的 行动 但 不 需要 啊 应 ;指示 消息 只 是 
提供 信息 ,不 要 求 指定 行动 和 啊 应 。 

H. 225.0 是 H. 323 协议 栈 中 解决 数据 流 复 用 的 方案 ,描述 了 在 没有 Qos 保 隐 的 前 提 下 
对 流 媒 体 进行 打包 分 组 和 同步 传输 的 机 制 ,同时 也 具有 逻辑 分 帧 \, 包 编号 、 检 错 与 纠 错 的 
能 力 。 

RAS( Registration ，Admission and Status ,注册 管理 与 状态 ) 是 H.225.0 协议 篮 定 义 的 一 
种 协议 ,是 网 关 / 终 端 与 关 守 之 间 进 行 信息 交互 时 使 用 的 协议 ,包括 注册 ,访问 控制 等 内 容 ， 
也 就 是 说 H. 323 实体 通过 RAS 回 关 守 进 行 注册 。 

Q.931 也 是 H.225.0 定义 的 一 种 协议 ,其 信 令 也 是 运行 于 网 关 与 关 守之 间 的 ,但 它 负 责 
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的 是 呼叫 过 程 中 的 信 令 处 理 , 也 就 是 说 H. 323 实体 通过 0. 931 完成 了 连接 功能 。 
综 上 所 述 ,RAS 完成 实体 回 关 守 的 注册 ,Q. 931 完成 实体 间 的 连接 功能 (呼叫 与 被 叫 ) ， 
H. 245 完成 连接 实体 间 的 参数 协商 (类 似 于 SDP) ,因此 三 者 的 执行 顺序 为 RAS 一 Q. 931 一 
H.245 。 
2. H.323 体系 结构 的 组 成 
H. 323 协议 簇 适 用 于 在 不 提供 额外 QoS 保障 的 情况 下 进行 多 媒体 传输 ,实现 了 不 同 网 
络 中 终端 之 间 的 音 视频 交互 。 
H. 323 定义 了 一 系列 的 终端 ,包括 网 关 (GW) 、 关 守 (GK) ,多 点 控制 带 ( MC) 多 点 处 理 
器 (MP) .多 点 处 理 单 元 (MCU) 等 ,这 里 面 最 重要 的 是 网 关 . 关 守 和 多 点 处 理 单元 ,这 些 终端 
设备 可 以 呼叫 其 他 终端 ,也 可 以 被 其 他 终端 呼叫 。 由 关 守 管 理 的 网 关 多 点 控制 单元 多 点 
控制 锅 、 多 点 处 理 带 等 所 有 终端 组 成 的 集合 称 为 “ 域 ” 。 一 个 域 至 少 包含 一 个 终端 , 且 必 须 只 
有 一 个 关 守 。 
下 gal 下 构成 域 的 这 些 节 点 和 终端 。 
终端 :代表 了 能 提供 实时 的 双 辐 语音 通信 能 力 ( 视 频 和 其 他 数据 的 通信 和 能力 可 选 ) 的 
ey 也 是 一 种 用 户 终 端 , 可 以 与 GW 、MCU 等 通信 。 终 问 是 H. 323 系统 中 的 必 选 组 
件 , 它 必须 包含 以 下 能 力 , 如 图 23 一 80 所 示 : 
。 音频 编 解 码 能 力 是 必 备 的 ,视频 编 解 码 能 力 可 选 ; 
e 电子 日 板 等 数据 应 用 能 力 ; 


H.323 所 包含 的 范围 
视频 1O 323 所 包 Hy | 所 
届 备 视频 网 解 但 

H.261/H.263 本 


没 各 CG.711,G.722 
G.729.G723.1 


系统 控制 


呼叫 控制 
RAS 控 制 
H.223.0 
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e 提供 应 到 闪 的 信 令 (H.245 控制 单元 的 能 力 ) ,例如 打开 和 关闭 逻辑 通道 、 发 送 指 
令 以 控制 通信 等 ; 

e。 接收 和 发 送 音 视 频数 据 以 及 控制 指令 ,同时 也 负责 处 理 诸如 逻辑 分 帧 .增加 序列 
号 错误 检测 等 工作 ,这 也 是 H. 225.0 协议 定义 的 主要 能 力 。 


人 
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> 了 网关: 网 天 是 H.323 系统 中 的 可 选 组 件 ,提供 了 市 点 设备 与 其 他 兼容 ITU 标准 的 终 病 
之 间 的 协议 转换 功能 (例如 传输 格式 转换 .通信 协议 转换 等 等 ) 。 同 时 ,网 天 还 可 以 执 
行 音 视频 的 转换 工作 ,并且 能 够 建立 和 拆除 呼叫 。 

> 关 守 : 关 守 (gate keeper, 也 称 网 守 ) 也 是 H. 323 系统 中 的 可 选 组 件 ,其 功能 是 向 节点 
设备 提供 呼叫 接 人 控制 等 服务 ,当然 这 些 服务 功能 也 可 以 融和 人 终端、 网关 和 MCU 中 。 
关 守 定义 了 一 些 必 选 功能 和 可 选 功能 ,分 别 如 下 : 

e 必 选 功能 :地 址 翻译 .市 宽 控 制 . 接 人 控制 区域 管 理 等 ; 

e 可 选 功 能 :呼叫 控制 .呼叫 鉴 权 呼叫 管理 等 。 
在 H.323 协议 体系 中 ,由 一 个 关 守 管理 的 所 有 终端 网关 和 MCU 的 集合 称 为 H. 323 域 。 
> 多 点 控制 单元 :MCU 支持 三 个 以 上 节点 设备 的 会 议 , 由 一 个 多 点 控制 器 MC( 必 选 ) 和 


不 处 理 媒 体 流 ;MP 则 对 音 视 频 等 媒体 数据 进行 混合 .切换 与 处 理 。MCU 在 H. 323 域 
中 的 位 置 如 图 23 -81 所 示 。 
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图 23-81 MCU 在 H.323 域 中 的 位 置 


3. H. 323 协议 继 的 执行 流程 

我 们 将 以 构成 H. 323 协议 族 的 三 个 核心 协议 (RAS、H.245 .Q. 931 ) 为 例 来 描述 会 议 系 
统 的 主要 流程 。 

1) RAS 协议 的 执行 流程 

RAS 协议 处 理 终端 与 天 守之 间或 天 守 / 网 关 与 天 守之 间 的 注册 与 访问 控制 。 前 者 由 寻 
找 关 守 消 息 .注册 登记 消息 .注销 消息 .修改 消息 . 接 人 认证 授权 和 地 址 解析 消息 以 及 呼叫 脱 
离 消 息 构成 ;后 者 则 由 地 址 解析 请 求 消息 ,状态 消息 .带宽 改变 消息 .网 关 资 源 可 利用 性 消息 
和 RAS 定时 需 修改 消息 构成 。RAS 协议 报 文 种 类 如 表 23 -9.23 -10 和 23 一 11 所 示 。 
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表 23 -9 关 守 /网 关 与 关 守 间 常 用 RAS 协议 相关 消息 
Location Request 关 守 加 上 一 级 关 守 发 出 地 址 解析 请 求 
Location Confirm 上 一 航天 村 对 LRQ 消 且 的 确认 回答 ,并 合 旬 地 地 址 解析 
址 解析 绪 未 请 求 消息 


上 一 级 关 守 对 LRQ 消息 的 拒绝 回答 ,并 给 出 拒 
绝 原 因 


网 关 根 据 ACF 命令 设 定 的 间隔 或 IRQ 向 关 守 


状态 "Dn 消 县 IW 


Information Negative 对 IRR 消息 的 拒绝 消息 


Acknowledgement 
网 关 与 关 守 之 间 的 带宽 改变 的 请 求 消息 
网 关 与 关 守 之 间 的 带宽 改变 的 确认 消息 
网 关 与 关 守 之 间 的 带宽 改变 的 拒绝 消息 


Resource Availability 网 关 向 关 守 发 送 的 资源 可 利用 性 报告 


Indication 


Resource Availability 


关 守 对 RAI 消息 的 确认 消息 


Confirmation 


RAS Timers and Request ER 2 RAS 和 定时 器 
对 RAS 消息 和 后 续 的 重 试 计数 的 响应 ee 
in Progress 修改 消 是 


终端 与 关 守 间 常 用 RAS 协议 相关 消息 


受理 终端 初次 使 用 ,向 网 络 广播 寻找 关 守 的 请 
求 ,以 找到 自己 所 属 的 关 守 


(ratekeeper Request 
关 守 加 受理 终端 发 送 的 对 寻找 关 守 请 求 
(CRQ ) 的 确认 回答 


关 守 向 受理 终端 发 送 的 对 寻找 关 守 请 求 
(GRQ ) 的 拒绝 回答 


Registration Request 受理 终端 回 关 守 发 起 的 网 关注 册 登 记 的 请 求 
关 守 回 受 理 终端 发 送 的 对 网 关注 册 登 记 请 求 
(RRO ) 的 确认 回答 

关 守 同 受 理 终 端 发 送 的 对 网 关 的 注册 登记 请 
求 (RRQ) 的 拒绝 回答 


Gratekeeper Confirm 


Gatekeeper Reject 


Registration Confirm 


Registration Reject 


Gr 
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消息 全 称 消息 分 类 


Unregistration Request 受理 终端 回 关 守 发 送 的 关于 网 关 请 求 注销 注 
EN 肌 登 记 的 消息 


关 守 癌 受 理 终 问 发 送 的 关于 网 关 的 URQ 消息 
Unregistration Confirm 的 确认 回答 ;或 计 费 认证 中 心 回 受理 终端 发 送 

的 关于 用 户 的 URQ 消息 的 确认 回答 

关 秆 问 受 理 终 端 发 送 的 关于 网 关 的 URQ 消息 
Unregistration Reject 的 拒绝 回答 ， 或 计 费 认证 中 心 回 受理 终端 发 送 

的 关于 用 户 的 URQ 消息 的 拒绝 回答 


Modification Request 这 理 余 半 癌 计 费 认证 中 心 发 送 的 修改 用 户 数 
ea ee 据 的 请 求 


注销 消息 


Modification Confirm 计 费 认证 中 心 回 受理 终端 发 送 的 对 修改 用 户 
四 数据 请 求 的 确认 消息 


修改 消息 
计 费 认证 中 心 辐 受理 终端 发 送 的 对 修改 用 户 
数据 请 求 的 拒绝 消息 


， 网 关 癌 关 守 发 送 的 用 户 接 入 认证 地址 解析 请 
Admission Request 求 消息 


Modification Reject 


关 守 对 ARQ 消息 的 确认 回答 并 给 出 地 址 解析 | 接 入 认证 
Admission Confirm 结果 ,对 于 卡号 用 户 , 还 需要 给 出 用 户 人 余额 和 | 授权 和 地 址 
最 长 通话 时 长 解析 消息 


Admission Reject 关 守 对 ARQ 请 息 的 拒绝 回答 并 给 出 拒绝 原因 


网 关 与 关 守 之 间 的 呼叫 脱离 请 求 消息 。 当 该 
消息 由 网 关 发 起 时 ,应 同时 传递 计 费 信息 。 计 
ea 费 信息 放 在 非 标准 数据 ( Non Standard Data ) 字 
段 中 
Disengage Confirm 关 守 对 DRQ 消息 的 确认 回答 


Disengage Reject 关 守 对 DRQ 消息 的 拒绝 回答 并 给 出 拒绝 原因 


表 23-11 顶级 关 守 之 间 常 用 RAS 协议 相关 消息 
Service Request 顶级 关 守 间 的 业务 请 求 消息 


pe ne | | 收 到 业务 请 求 的 顶级 关 守 对 Service Request 消 
业务 确认 Service Confirmation 息 的 确认 回答 ,并 建立 业务 关联 关系 


ee z 顶级 关 守 对 Service Request 消息 的 拒绝 回答 ,并 
业务 拒绝 Service Rejection 项 级 天 守 对 Service Request 消息 的 拒绝 回答 ,并 
给 出 拒绝 原因 


描述 各 ID 请 求 | Descriptor ID Request 顶级 关 守 向 别 的 项 级 关 守 请 求 描述 右 ID 


3168 


消息 名 称 消息 全 称 


顶级 关 守 对 Descriptor ID Request 消息 的 确认 回 
答 , 并 给 出 该 项 级 关 守 的 描述 右 ID 列表 


村 级 天 守 对 Descriptor ID Request 消息 的 拒绝 回 


内 容 


顶级 关 守 对 Descriptor Request 消 县 的 确 认 回 答 
并 给 出 描述 器 的 县 体内 容 


和 顶级 关 守 对 Descriptor Request 消息 的 拒绝 回答 ， 
escriptor Rejection 并 给 出 拒绝 原因 


地 址 解析 请 求 ”| Access Request 顶级 关 守 间 的 地 址 解析 请 求 消息 
地 址 解析 确认 Access Confirmation 顶级 关 守 对 地 址 解析 请 求 消息 的 确认 回答 
地 址 解析 拒绝 Access Rejection 顶级 关 守 对 地 址 解析 请 求 消 息 的 拒绝 回答 
RAS 协议 的 执行 流程 如 图 23 - 82 所 示 , 依 次 为 天 守 发 现 , 市 点 登记 与 注销 以 及 呼叫 接 
人 与 退出 。 由 于 比较 简单 ,这 里 不 再 歼 述 。 


描述 器 ID 确认 Descriptor ID Confirmation 


描述 种 ID 拒绝 | Descriptor ID Rejection 


Descriptor Request 


Descriptor Confirmation 
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2) Q.931 协议 的 执行 流程 
Q.931 协议 实现 主 叫 方 与 被 叫 方 的 连接 控制 功能 ,是 处 理 网 关 / 顶 级 关 守 与 天 守之 间 信 
息 交 互 所 使 用 的 协议 ,主要 负责 呼叫 过 程 中 的 信 令 处 理 ,其 报 文 的 种 类 如 表 23 - 12 所 示 。 
表 23-12 0Q.931 消息 类 型 
消息 名 称 消息 功能 


Call Proceeding 呼叫 进程 被 叫 发 给 主 叫 的 消息 ,表示 呼叫 正在 处 理 


用 户 或 网 络 发 送 的 消息 ,说 明 一 个 呼叫 的 进展 情况 


Progress 


Aning | 提要。 | 被 中 发 给 主 叫 的 消息 ,表示 被 中 用 户 已 擒 


二 


续 表 23 -12 


连接 被 叫 发 给 主 叫 的 消息 ,表示 被 叫 用 户 已 摘 机 


用 户 或 网 络 发 送 的 消息 ,用 于 对 状态 询问 (Status Inquiry ) 消息 
进行 响应 或 在 呼叫 期 间 对 特定 错误 情况 进行 报告 


人 态 顶级 关 守 向 另 一 个 顶级 关 网 请 求 特定 描述 器 的 内 容 


用 户 或 网 络 发 送 的 消息 ,用 于 从 一 个 同等 的 三 层 实体 请 求 状 


8 L J 
态 信 息 


Notify 


Status Inquiry 


用 户 或 网 络 发 送 的 附加 消息 ,用 于 提供 呼叫 建立 或 各 种 与 呼 
叫 相关 的 信息 


Release Complete 由 先 挂机 的 一 方 发 给 另外 一 方 ,表示 释放 过 程 已 完成 


Q.931 协议 的 执行 分 为 两 部 分 :呼叫 建立 和 呼叫 断 开 ,我们 先 来 看 呼叫 建立 的 流程 。 

呼叫 建立 最 关键 的 就 是 找 路 由 ,可 以 杀 用 两 种 方式 查找 路 由 , 即 耳 接 路 由 方式 和 GK 路 
由 方式 。 

(1) 直接 路 由 方式 的 呼叫 建立 流程 (如 图 23 -83 所 示 ) 

QQ 主 叫 终端 发 起 呼叫 ,通过 RAS 协议 的 ARQ 消息 接 入 ,在 收 到 GK 的 ACF 消息 后 解析 
出 被 叫 终端 地 址 ,并 下 接 与 之 建立 TCP 连接 (被 叫 终端 的 监听 端口 一 般 为 1720)。 

@) 主 叫 终端 通过 Q. 931 协议 发 送 Setup 消息 给 被 叫 终端 ,被 叫 终端 会 回复 Call 
Proceeding Alerting 和 Connect 等 消息 建立 TCP 之 上 的 会 话 连接 。 

@) 主 叫 终 问 收 到 Connect 消息 后 ,进入 H.245 协商 阶段 。 

主 叫 终端 和 被 叫 终端 都 可 以 发 出 Release 消息 以 结束 本 次 呼叫 会 话 。 

主 叫 终端 GK 徙 叫 终 闹 
Q 


User Information 


建立 TCP 连 接 


= 


图 23 一 83 直接 路 由 方式 的 呼叫 建立 流程 
(2) GK 路 由 方式 的 呼叫 建立 流程 (如 图 23 -84 所 示 ) 
Oa 主 叫 终端 发 起 呼叫 ,通过 RAS 协议 的 ARQ 消息 接 入 ,在 收 到 GK 的 ACF 消息 后 解析 
出 被 叫 终端 地 址 ,这 个 地 址 是 需要 GK 路 由 的 ,因此 先 与 GK 建立 TCP 连接 (默认 也 是 1720 
端口 ) 。 


下 一 一 Q.931 呼 叫 信 今 信道 
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主 叫 终端 GK 被 叫 终 闹 


Setup 
Call Proceeding 


建立 TCP 连 接 


Call Proceedine 
Alerting 
Alertin Connect 


Connect 


图 23 一 84 GEK 路 由 方式 的 呼叫 建立 流程 


G@) 主 叫 终端 通过 Q.931 协议 发 送 Setup 消息 给 GK,GK 会 回复 Call Proceeding 消息 ,以 
代替 被 叫 终 闪 与 主 叫 终端 建立 TCP 之 上 的 会 话 连 接 。 

@ GK 与 被 叫 终端 建立 TCP 连接 并 发 送 Setup 消息 给 被 叫 终端 ,被 叫 终端 一 般 会 回复 
Call Proceeding Alerting 和 Connect 等 消息 以 建立 会 话 连 接 。 

(4 GK 将 上 述 收 到 的 Alerting 和 Connect 消息 返回 给 主 叫 终端 。 

(3) 主 叫 终 闹 收 到 Connect 消息 后 ,进入 H.245 协商 阶段 。 

主 叫 终端 和 被 叫 终端 都 可 以 发 出 Release 消息 以 结束 本 次 yxy 终端 2 
呼叫 会 话 。 呼 叫 断 开 的 时 候 , 无 论 主 叫 和 被 叫 谁 先 挂机 ,都 会 
发 送 Release Complete 消息 给 对 端 并 汤 开 TCP 连接 , 详 见 
图 23 -85 。 

3) H.245 协议 的 执行 流程 

H. 245 协议 负责 主 叫 与 被 叫 之 间 的 信息 交换 ,分 为 请 求 、 
啊 应 命令 .指示 4 类 消息 。H.245 协议 的 控制 功能 主要 由 以 ”图 23-85 呼叫 断 开 流 程 
下 三 个 因 系 来 考量 ， 

> 主 从 问题 :决定 谁 是 主 . 谁 是 从 ,可 以 解决 会 议 中 的 某 些 冲突 情况 ,例如 两 个 节点 都 是 

MC 或 者 两 个 节点 都 试图 创建 双 回 信道 ,这 时 需要 决定 谁 是 主 . 谁 是 从 。 

> 能 力 交 换 : 主 要 是 通信 双方 的 编 解码 能 力 的 协商 。 

> 逻辑 通道 开关 : 即 通过 RTP/RTCP 为 通话 建立 逻辑 信道 。 

H. 245 协议 报 文 的 种 类 如 表 23 -13 所 示 。 
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表 23-13 主 叫 与 被 叫 间 的 H. 245 消息 
消息 名 称 消息 全 称 消息 会 义 


消 
全 交换 请 求 竺 诉 对 方 ; 让 
Terminal Capability Set ab 诉 对 方 本 端 


Terminal Capability Set Acknowledge 能 力 交 换 请 求 啊 应 
TCSR Terminal Capability Set Reject 能 力 交 换 请 求 拒绝 


Master Slave Determination 主 从 确定 请 求 


Master Slave Determination Acknowledge 主 从 确定 请 求 啊 应 
Master Slave Determination Reject 主 从 确定 请 求 拒绝 
I 打开 逻辑 通道 请 求 
Open Logical Channel Acknowledge 打开 逻辑 通道 


OLCR Open Logical Channel Reject 求 拒绝 


ESC End Session Command 


Close Logical Channel 


Close Logical Channel Ack 


H. 245 协议 的 执行 流程 也 非常 简单 ,从 图 23 -86 至 图 23 -88 中 可 以 看 出 基本 上 是 一 来 
一 回 的 同步 式 请 求 握手 。 


终端 1 终端 2 终端 1 终端 2 
TCSRegq(TCS) MSDReq(MSD) 


TCSACck(TCSA) 


MSDACckK(NMSDA 
TCSsRe](TCSR 


或 


MSDRel(MSD 释 放 ) 


超时 一 一 一 


CSRel(TCS 释 放 ) 超时 一 一 = 


23 -86 ”H.245 协议 中 能 力 交 换 与 主 从 确定 的 流程 


终端 ] 终 靖 2 


超时 ,| _CLCRelCLC 释 放 ) 


加 23 一 87 H.245 协议 中 打开 逻辑 通道 与 关闭 逻辑 通 追 的 流程 


图 23 -88 了 .245s 协议 中 结束 会 话 的 流程 
综 上 所 述 ,我 们 可 以 梳理 出 典型 的 完整 呼叫 和 断 开 流程 ,如 图 23 -89 所 示 。 
终端 ] GK 终端 2 终端 1 GK 终端 ] 
关闭 四 辑 通道 (H.245 CLO) 


mand(H.245 ESC) 
End session Command(H.245 ESC 


晰 开 H.244TCP 连 接 


ReleaselComplete 


断 开 Q.931TCP 连 接 


到 


图 23 -89 典型 的 呼叫 和 断 开 流程 
23.3.1.5 GB/T 28181 和 GB 35114 

近年 来 随 春 视频 图 像 互联 互通 有 要求 的 日 益 迫 切 ,公安 部 密集 出 台 了 一 系列 关于 互联 互 
通 技术 的 标准 规范 ,包括 技术 标准 .评定 标准 ,管理 标准 等 和 内容。 其 中 GB/AT 28181 规范 在 整 
个 标准 体系 中 占据 了 核心 地 位 ,而 2018 年 发 布 的 CB 35114 规范 又 是 GB/AT 28181 在 数据 安 
全 认证 安全 等 方面 的 补充 和 延伸 ,GB/T 25724 则 是 音 视频 编码 与 打包 的 国家 标准 ,也 就 是 
我 们 党 说 的 SVAC 标准 。 

1. GB/T 28181 

GB/T 28181 是 公安 部 发 布 的 安防 领域 的 视频 监控 互联 互通 标准 ( 见 图 23 -90) ,也 是 目 
前 行业 内 影响 力 最 大 的 视频 领域 的 互联 互通 标准 ,其 全 称 是 4 安全 防范 视频 监控 联网 系统 信 
息 传输 交换、 控制 技术 要 求 》。GBZT 28181 目前 已 发 布 了 2011 和 2016 两 个 正式 版 本 ,并 
是 在 中 间 还 有 一 些小 的 迭代 更 新 。2016 版 本 中 最 主要 的 改进 就 是 增加 了 基于 UDP 的 RTCP 
和 了 CP 的 传输 方式 ,其 中 TCP 方式 又 同时 支持 主 叫 与 被 叫 两 种 连接 方式 , 即 底 层 设 备 / 平 台 
主动 向 上 级 平台 建立 TCP 连接 和 上 级 平台 主动 问 底 层 设备 /平台 建立 TCP 连接 这 两 种 

GB/T 28181 是 基于 SIP ,SDP .RTP 等 应 用 层 协 议和 PS 视频 封装 方式 的 会 话 层 协议 ,并 
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相关 法 律 法 规 


1 技术 标准 


1.1 GB/T 281%1 
安全 四: 光 


系统 
1 多 


2 视频 分 析 应 


用 标准 


25GAIT 公安 
规 频 图 像 人 人 脸 


识别 标准 


公安 视频 图 像 信息 联 网 与 应 用 标准 体系 


3 合格 评定 标准 


4 管理 标准 


3.1 GA 国家 标 
淮 GB/ | 2 1 1 
产品 符合 性 测 
试 规范 


4.1 GA 公安 视 
频 图 像 信息 接 
入 、 调 用 、 使 


35 GA 视频 图 
像 信息 安全 接 
入 测 一 


传输 、 忆 
、 控 制 技术 
求 


3.2 GA 国家 标 
淮 GB/T 25724 
符合 性 测试 规 


2.2 AT 公安 


: 2.0 GBIT 30147 
A 


知 能 


和 和 设 2 术 要 求 


33GA 
网 略 业 人 
27 6GAT 视频 


图 像 分 析 仪 系 
列 标准 


示 i 什 争 
从 和 谍 坑 范 


Wr 


图 23 -9 ” 较 早 版 本 的 公安 视频 图 像 信息 联网 与 应 用 标准 体系 
(图 片 来 自 4 公 安 视频 图 像 信息 联网 与 应 用 标准 体系 表 》 ) 


支持 SVAC .H. 264 等 视频 编码 方式 和 SVAC .G711 等 音频 编码 方式 , 既 适 用 于 监控 终端 设备 接 
,也 适用 于 平台 之 间 互 联 互通 ,并 且 在 一 定 的 场景 下 支持 私 网 穿 透 特性 ,是 一 套 实 用 性 很 强 

的 标准 规范 。 其 主要 包括 注册 与 注销 ( 见 图 23 -91) .心跳 保 活 .实时 视频 查看 ( 见 图 23 -92 ) 、 

历史 视频 查询 与 查看 云 台 控 制 .报警 与 订阅 等 功能 ,涵盖 了 视频 联网 监控 平台 的 大 多 数 功能 。 


651 Request: RECISTER sip:65400300002000000001@21. 82. 8.2:5060 (1 binding) | 
420 Status: 401 Unauthorized | 

728 Request: REGISTER sip:65400300002000000001@21, 82. 8.2:5060 (1 binding) | 
441 Status: 200 OK (1 binding) | 


23 一 91 GB/T 28181 的 注册 报 文 


SIP/SDP 787 Request: INVITE sip:65020000001310000533@10. 45. 154. 98:5060 | 
SIP 369 Status: 100 Trying | 

SIP 454 Status: 101 Dialog Establishemnent | 

658 Status: 200 OK | 


SIP/SDP 
SIP 372 Request: ACK sip:65020000001310000533@10. 45. 154. 98:5060 | 
SIP 372 Request: BYE sip:65020000001310000533@10. 45. 154. 98:5060 | 
SIP 363 Status: 200 OK | 


图 23-92 ”GB/T 28181 的 视频 申请 与 结束 报 文 


GB/T 28181 协商 信 令 是 基于 SIP 的 , 即 构筑 在 RFC 3261 和 RFC 3265 两 套 标准 之 上 ,并 完 
整 保 留 了 SIP 的 状态 机 和 和 定时 融 等 机 制 。 例 如 图 23 - 92 中正 稼 申请 视频 的 流程 是 这 样 的 : 
(1) 客户 问 发 送 INVITE 消 县 给 服务 站 请 求 视频 ,INVITE 消息 中 包含 了 所 请 求 视 频 的 
等 信 Eee SIP 状态 为 临时 会 话 建立 中 。 
(2) 服务 病 立 即 回复 100 Trying 消息 给 客户 疹 , 这 一 般 是 由 服务 病 的 SIP 状态 机 回复 的 
(不 需要 经 过 上 层 应 用 业务 ) ,以 安抚 客户 山 不 需要 重 发 INVITE 报 文 了 ,此 时 双方 的 SIP 状 
态 机 中 的 临时 会 话 创 建成 功 。 
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这 里 要 解释 一 下 ,SIP 状态 机 也 存在 定时 需 机 制 。 客 户 端 在 发 送 了 INVITE 请 求 而 服务 
端 没 有 回复 时 会 隔 一 段 时 间 再 次 发 送 INVITE , 这 个 时 间 间 隔 会 呈 倍 数 增加 (1s,2s,4s,8s 
a ) 。 其 实在 某 些 情况 下 服务 端 只 是 因为 太 忙 了 (例如 准备 流 媒 体 相 关 资 源 ) 才 没有 回复 
的 ,并 不 是 没收 到 ,如 果 客 户 端 不 识 趣 地 添乱 拼命 发 会 使 服务 问 更 加 忙碌 。100 Trying 报 文 
就 是 为 避免 这 种 情况 而 产生 的 , 它 的 含义 是 “我 收 到 了 ,不 要 再 发 了 ”, 它 的 产生 者 是 服务 病 
的 SIP 状态 机 而 非 更 上 层 的 业务 应 用 ,这 就 有 效 避 免 了 忙中 添乱 情况 的 发 生 。 

INVITE 和 100 Trying 消息 的 一 个 来 回 只 能 生成 临时 会 话 ,正式 会 话 要 得 到 服务 端 业务 
层 的 “首肯 ”才能 建立 ,因此 临时 会 话 只 是 个 “草签 ”。 

(3) 服务 端 准备 好 了 媒体 资源 后 经 过 SIP 状态 机 向 客户 端 回复 200 OK 报 文 ,这 个 报 文 
中 也 承载 7 服务 并 的 流 媒 体 参 数 。 此 时 服务 并 与 客户 端 状态 机 中 的 SIP 会 话 都 升级 为 正式 
会 话 , 临 时 会 话 状 态 结束 。 

(4) 最 后 客户 端 要 向 服务 端 发 送 ACK 报 文 ,以 表示 自己 收 到 了 200 OK 报 文 ,也 接受 服 
务 端 的 媒体 参数 ,此 后 便 可 以 交换 媒体 数据 了 。 

GB/T 28181 应 用 了 SIP 中 的 REGISTER .MESAGE INVITE 、.ACK .BYE 等 报 文 类 型 ;在 
流 媒体 协商 时 采用 SDP( 流 媒体 描述 协议 ) ;在 流 媒 体 封装 和 传输 方面 则 是 采用 PS 的 打包 方 
式 , 且 2011 版 只 支持 RTP over UDP 的 传输 方式 ,同时 也 不 莱 容 RTCP 心跳 机 制 。 

2. GB 35114 

GB 35114 的 全 称 是 《公共 安全 视频 监控 联网 信息 安全 技术 要 求 》 ,是 公安 部 针对 数据 安 
全 网 络 安全 两 个 主题 而 对 GB/AT 28181 做 的 扩展 和 加 强 。GB 35114 在 协议 上 全 面 兼 容 
GB/T 28181(2016 版 本 ) ,也 就 是 说 仍然 支持 SIP .SDP .RTP/RTCP 等 几 种 应 用 层 协 议 及 其 连 
接 方式 ,互联 互通 业务 方面 的 功能 是 基本 不 变 的 。 

GB 35114 将 安全 级 别 分 为 了 依次 加 强 的 A、B.C 三 个 等 级 ,其 中 A 级 只 要 求 设备 /平台 间 的 
信 令 具备 身份 认证 功能 ;B 级 要 求 在 实现 A 级 安全 要 求 的 基础 上 实现 数据 防 算 改 (数字 证 书 ) 和 
完整 性 校 验 功能 ;C 级 则 要 求 在 B 级 安全 要 求 的 基础 上 实现 音 视 频数 据 内 容 的 加 密 保 护 。 

1 ) 先 验 知识 

在 介绍 具体 规范 之 前 我 们 先 来 看 一 些 术 语 , 见 表 23 一 14。 

表 23-14 GB 35114 中 的 术语 及 其 解释 


定义 .信息 的 发 送 端 和 接收 端 共用 一 个 密 钥 ,加 解密 速度 快 ,安全 性 不 如 非 对 称 
对 称 密 钥 密 乌 
( 私 钥 加 密 ) 用 途 : 功 能 管理 平台 内 功能 实体 的 签名 公私 钥 .加 密 公 私 钥 .FWSF( 具有 安全 功能 


的 前 端 设备 ) 签 名 公私 钥 , 有 安全 功能 的 用 户 终端 签名 公私 负 
定义 : 密 钥 有 一 对 , 即 公 钥 和 私 钥 , 公 钥 可 发 给 任何 请 求 者 , 私 钥 只 有 一 方 有 ,使 用 
非 对 称 密 钥 | 其 中 一 个 进行 加 密 , 只 能 用 男 一 个 解密 。 一 般 都 是 用 公 钥 加 密 , 私 钥 解 密 
( 公 钥 密 角 加密 ) | 用 途 :视频 密 钥 加 密 密 钥 .视频 加 密 密 钥 ,其 中 视频 密 钥 加 密 密 钥 用 于 平台 发 起 、, 变 
化 以 及 对 视频 密 钥 加 窗 


续 表 23 -14 


输出 反馈 模式 


表 23 一 15 中 列举 了 规范 中 用 到 的 加 密 算 法 .数字 证 书 ,资源 认证 . 密 钥 管理 和 视频 封装 
等 方面 的 技术 要 求 。 


表 23-1sS GB 35114 中 的 技术 要 求 
技术 /规范 名 称 用 途 和 其 他 


”| 用 户 身份 认证 .前 端 设备 认证 ， 
SM2 顶 圆 曲线 公 钥 密 在 | 
dd 炎 公 角 密 码 | 点 务 器 设备 认证 ,平台 间 认 证 、 


SM4 算法 ECB 模式 密 钥 协商 数据 加 密 应 全 部 采用 获得 
国家 密码 管理 行 
视频 加 密 (SMI1 算法 不 公开 , 需 | 政 机 构 批 准 的 安 
SM1/SM4 分 组 密码 算法 | 要 通过 加 密 芯 片 的 接口 进行 调 | 全 密码 产品 实 
OFB 模式 用 ) 采 用 OFB 模式 时 ,每 个 加 密 | 现 ,网 上 基本 上 
的 GOP 使 用 不 同 的 IV 有 开源 的 实现 
(标准 C 代码 ) 
SM3 密码 散 列 算法 完整 性 校 验 


必须 通过 CM/AT 0005 一 2012 规 
定 的 方法 检测 ,已 支持 


定义 了 证 书 撒 销 列表 的 规定 


儿子 证 及 | GMAT0014_2012 数字 证 书 认证 系统 密码 协议 规范 
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23 一 
用 途 和 其 他 


信息 技术 安全 技术 实体 鉴别 第 
3 部 分 :采用 数字 签名 技术 的 


We 
的 语法 


表 23 一 16 列 出 了 GB 35114 规范 中 对 于 设备 模块 的 定义 及 其 用 途 , 这 些 lt 
规范 中 的 加 解密 及 其 计算 加 速 、. 密 钥 存储 等 起 决定 性 作用 ,并 且 对 于 安全 终端 设备 (IPC 等 
也 做 了 详细 的 安全 功能 描述 。 


表 23 一 16 ”GB 35114 中 的 设备 要 求 


该 设备 具备 安全 密码 模块 ,该 模块 具有 唯一 ID ,并 可 以 存储 VEK 
可 以 对 视频 流 进行 指定 算法 的 加 密 


FDWSF 设备 (IPC) 支持 SVAC 编码 和 GB/T 25724 一 2017 中 规定 的 Nal 封装 方式 ,以 及 
认证 Nal 和 安全 参数 集 Nal 


文 持 以 前 端 存 储 方式 存储 视频 


SM1 加 密 芯 片 支持 SM1 对 称 加 密 算 法 


存储 所 有 前 端的 视频 密 钥 加 密 密 钥 ,保存 周期 满足 视频 保存 时 间 
要 求 

存储 导出 的 加 密 视 频 , 可 以 对 视频 观看 时 间 、 观 看 次 数 . 复 制 情况 的 
授权 做 存储 

SVAC 加 密 视 频 流 解 码 库 针对 加 密 的 视频 流 ,根据 VEK 进行 解码 和 显示 ,并 输出 YUV 数据 


2) 功能 分 解 

在 GB 35114 规范 中 基本 上 都 是 采用 国 密 算法 (SM | 了 加 密 工作 的 ,包括 . 

> 采用 非 对 称 加 密 算法 (SM2 椭圆 曲线 公 和 钥 密 码 算法 ) 进行 刁 份 认证 、 数 字 签 名 和 密 钥 
协商 。 

> 采用 对 称 加 密 算 法 进行 视频 数据 加 密 保 护 和 密 钥 协商 时 的 报 文 数据 加 密 , 前 者 一 般 
采用 SM1 或 SM4 分 组 密码 算法 的 OFB 模式 ,后 者 一 般 采 用 SM4 分 组 密码 算法 的 
ECB 模式 。 

> 采用 加 密 散 列 算法 (SM3 密码 散 列 算法 ) 进 行 完整 性 校 验 。 

> 除 此 之 外 ,规范 中 还 采用 了 随机 数 生成 算法 用 于 产生 随机 数 。 

上 述 加 密 算 法 中 , 非 对 称 密 钥 主要 应 用 于 平台 内 签名 公私 钥 和 加 密 公 私 钥 .FDWSF 签 


平台 安全 模块 


视频 导出 存储 介质 
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名 公私 钥 . 具有 安全 功能 的 用 户 终 端 签 名 公私 钥 等 ;对 称 密 钥 则 主要 应 用 于 视频 加 密 密 钥 和 
在 GB 35114 规范 中 数字 证 书包 括 用 户 证 书 前端 设备 (IPC 等 监控 设备 ) 证 书 、 服 务 需 
设备 证 书 和 管理 平台 (软件 ) 证 书 4 类 。 数 字 证 书 采 用 基于 公私 钥 的 非 对 称 密 钥 加 密 算法 进 
行 加 解密 。 
基于 满足 CBXT 28181 规范 的 视频 监控 平台 软件 ,我 们 将 GB 35114 的 主要 功能 分 解 为 
表 23 一 17 中 的 几 个 大 项 和 子 项 供 读者 参考 


表 23-17 GB 35114 规范 的 功能 分 解 
服务 器 .FDWSF 安全 用 户 终端 统一 编码 
FDWSF 中 的 密码 模块 ,应 具有 ID 
用 户 身 份 认证 用 户 和 用 户 证 书 .ID 的 对 应 关系 管理 ,对 所 有 用 户 都 要 进行 认证 
A 级 ( 弱 ) :数字 证 书 与 管理 平台 ,进行 双向 身份 认证 
前 端 设备 分 级 B 级 (次 弱 ) ;A 级 + 视频 数据 签名 ,可 校 验 视频 内 容 是 否 被 算 改 
C 级 ( 强 ):B 级 + 视频 加 密 
管理 FDWSF 基本 属性 信息 .ID .密码 模块 ID 与 设备 证 书 的 对 应 关系 等 
对 所 有 接 人 的 FDWSF 进行 单 回 或 双 回 设备 身份 认证 
平台 双向 认证 (上 下 联 服务 器 可 充当 逻辑 信 令 安全 路 由 网 关 ) 


设备 身份 认证 基础 上 ,平台 采用 基于 属性 或 基于 角色 的 访问 控制 模型 对 
用 户 授权 、 管理 控制 


授权 与 访问 控制 访问 控制 粒度 包括 设备 安全 等 级 和 存储 的 视频 是 否 加密 
能 访问 加 密 视 频 的 用 户 应 基于 数字 证 书 认 证 (播放 .回放 .下 载 .删除 等 ) 
跨 域 访问 , 信 令 头 域 加 上 Monitor-User-Identive 携带 的 用 户 身 份 信息 
B 和 C 级 设备 支持 视频 数据 签名 和 TCP 传输 
视频 签名 与 完整 性 校 验 B 和 C 级 设备 支持 对 工 帧 和 关键 帧 签名 
平台 文 持 对 视频 数据 签名 存储 和 验证 一 一 不 可 抵赖 性 
C 级 FDWSF 对 音 视 频 加 密 


平台 可 以 对 用 户 权限 内 的 加 密 音 频 进 行 播放 存储、 回放 下载、 分 发 . 导 
出 等 操作 


音 视 频 加 密 格 式 
视频 导出 平台 应 更 换 视 频密 钥 加 密 密 铀 


统一 编码 规则 


设备 身份 认证 


平台 间 记 证 


i 
面 
1 


音 视频 加 密 
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续 表 23 一 17 


对 于 FDWSF 异常 情况 ,例如 非 授 权 处 理 密码 模块 损坏 或 者 丢失 能 及 时 发 现 
将 设备 (包括 FDWSF 和 非 FDWSF) 异 常情 况 ( 报 警 ) 等 写 人 平台 日 志 
设置 安全 管理 员 .安全 操作 员 安全 审计 员 三 类 角色 


安全 管理 员 : 系 统 的 安全 参数 配置 .服务 器 启动 和 停止 ,但 不 具备 安全 业 
务 操作 权限 


安全 操作 员 : 密 钥 生成 和 导 和 人 备份 恢复 等 日 常 操作 
安全 审计 员 :对 安全 事件 和 各 类 管理 .操作 人 员 行 为 进行 审计 监督 


通过 数字 证 书 .静态 口令 .动态 口令 .生物 识别 等 认证 安全 管理 员 安全 操 
作 员 ,安全 审计 员 的 身份 ,认证 通过 才能 操作 


记录 各 种 安全 操作 和 异常 安全 事件 (用 户 认证 .设备 认证 、 密 钥 管 理 、 密 铀 


设备 异种 管理 报警 


协商 失败 ,数据 加 解密 失败 .完整 性 校 验 失 败 ) 


平台 可 以 获取 FDWSF 各 种 安全 异常 事件 日 志 (设备 认证 失败 、 密 钥 协商 
失败 .数据 加 解密 失败 .完整 性 校 验 失 败 等 ) 


非 对 称 密 钥 管理 按照 CMZT 0034 一 2014 管理 

视频 密 钥 加 密 密 钥 在 设备 注册 时 更 新 ,安全 传输 到 具有 安全 功能 前 端 设 
备 的 密码 模块 中 存储 

平台 要 使 用 安全 模块 保存 所 有 前 端的 视频 密 钥 加 密 密 钥 ,保存 周期 满足 
视频 保存 时 间 要 求 

视频 密 钥 加 密 密 钥 更 新 周期 不 超过 1 天 ,视频 加 密 密 钥 更 新 周期 不 超过 1 
小 时 


对 称 密 钥 管理 


23.3.2 物 联网 协议 枝 
物 联 网 设备 大 多 部 署 在 室外 , 且 通 常情 况 下 的 供电 来 源 都 是 电池 ,这 要 求 物 联网 设备 功 
能 简单 计算 量 小 \ 功 耗 低 、 通 信 方 式 简 洁 , 因 此 物 联网 设备 一 般 满足 以 下 特征 : 
> 设备 功能 单一 :大 多 数 物 联网 设备 只 负责 单一 方面 的 功能 ,例如 传 感 和 告警 等 。 
> 操作 系统 简单 :大 多 数 物 联 设备 的 操作 系统 是 轻 量 级 的 操作 系统 ,不 需要 过 于 复杂 的 
管理 机 制 ,协议 栈 大 多 也 经 过 了 裁 甬 。 这 样 做 既 能 满足 业务 的 需要 ,也 能 维持 较 低 的 
计算 量 和 功 耗 。 
> 接 入 协议 多 样 : 物 联网 设备 的 接 入 协议 包括 Ethernet Wi-Fi ZigBee Bluetooth NB-IoT、 
Sigfox .RFID .4G .5G .LoRa .6LoWPAN TSN 等 。 这 里 要 明确 的 是 , 物 联 网 的 接 人 协议 
不 是 指 设备 “ 接 人 "平台 的 协议 ,而 是 负责 物 联网 内 设备 间 组 网 和 通信 的 协议 。 一 般 
来 说 可 以 将 接 入 协议 分 为 近 距 离 通信 协议 ( 近 场 通信 NFC) . 远 距 离 蜂 祖 通信 协议 、 远 
距离 非 蜂 宇通 信 协 议和 有 线 通信 协议 4 类 ,如 图 23 -93 所 示 。 
> 应 用 协议 轻 量 多 样 :在 接 人 协议 之 上 的 应 用 层 协 议 应 该 满足 通信 量 少 .带宽 占用 低 、 


Se 
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传输 效率 高 的 特点 ,因此 其 应 用 协议 大 多 比较 轻 量 。 而 且 由 于 设备 种 类 繁多 ,用 于 匹 
配 设 备 特点 的 应 用 协议 非 第 多 样 ,包括 HTTPAHTTPS、XMPP、CoAP、MQTT、DDS、 
AMOQP .WebSocket JMS 等 。 
应 用 层 协议 
以、 信和 


近 距 离 通信 远 距 高 昨 霄 通信 远 距 离 非 蜂 党 通信 有 线 通 信 


物理 层 协 议 、 
履 所 链 中 层 协 


23 一 93 ” 物 联 网 协议 分 层 架 构 ( 图片 来 自 CSDN) 


从 宏观 意义 上 来 说 , 视 联网 的 设备 (监控 摄像 机 视频 会 议 设备 等 ) 也 属于 物 联网 设备 的 
范畴 ,但 由 于 监控 设备 规模 庞大 数据 传输 量 大 ,协议 专 一 而 月 成 一 体 , 因 此 我 们 从 更 细 分 的 
角度 将 其 划分 为 视 联网 设备 。 相 比 视 联网 协议 , 物 联 网 协议 则 更 加 丰富 多 样 , 更 加 注重 节能 
和 自持 力 。 

由 于 物 联网 领域 从 接 人 协议 到 应 用 协议 都 有 所 涉及 , 且 应 用 协议 都 是 基于 接 人 协议 的 ， 
因此 我 们 也 将 物 联 网 领域 的 协议 称 为 “协议 栈 ”。 本 市 我 们 重点 介绍 接 入 协议 和 应 用 协议 。 

23.3.2.1 接 入 协议 

1) Wi-Fi 

Wi-Fi 是 一 种 无 线 局 域 网 技术 ( WLAN ) ,人 避 循 的 是 [EEE 802. 11 标准 (802.3 标准 应 用 于 
Ethernet) ,是 目前 最 为 普及 的 一 种 无 线 组 网 接 入 技术 ,可 以 非常 方便 地 接 入 互联 网 ,当然 这 
也 要 求 所 接 人 的 设备 必须 文 持 TCP/IP 协议 。 

2) ZigBee 

ZigBee 是 一 种 基于 IEEE 802. 15.4 标准 的 短 距 离 无 线 Mesh 网 络 技术 ,广泛 应 用 于 工业 
控制 和 智能 家 居 领 域 ,具有 低 成 本 , 低 功 耗 .月 组 网 .高 安全 度 的 特点 。 

ZigBee 传输 速率 较 低 ,协议 也 很 简单 ,因此 功 耗 低 ,传输 效率 较 高 , 且 支 持 休 虐 和 自动 唤 
桓 功能。 同时 由 于 ZigBee 协议 自 带 Mesh 功能 ,因此 可 以 支持 60 000 + 以 上 数量 节点 的 连 
接 , 也 支持 鉴 权 认证 和 数据 加 密 ,并 与 6LoWPAN 一 样 都 采用 了 AES 128 加 密 技 术 。 

3 ) Bluetooth 

Bluetooth( 蓝牙 ) 也 是 一 种 遵循 正 EE 802. 11 标准 的 近 距 离 无 线 通 信 技 术 ,并且 具 有 即 
插 即 用 的 特点 , 即 任意 一 个 蓝牙 设备 一 旦 搜寻 到 男 一 个 蓝牙 设备 ,马上 就 可 以 建立 连接 而 无 
需 用 户 进行 任何 设置 。 另 外 ,Bluetooth 也 有 具 有功 耗 低 .成 本 低 的 特点 。 
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4) NB-IoT 

NB-IoT( Narrow Band-Internet of Things ) 即 基于 蜂 帘 的 军 市 物 联 网 ,是 低 功 耗 广域网 
(LPWA) 技 术 的 一 种 ,也 是 3GPP 标准 定义 的 LPWA 解决 方案 。NB-IoT 具有 低 成 本 、 低 功 
耗 全 罗 善 等 特点 ,多 用 于 运营 商 级 基于 授权 频谱 的 低速 率 物 联网 市 场 , 特 别 是 在 位 置 跟 踩 、 
环境 监测 . 价 能 俘 手 .远程 抄 表 等 领域 有 春 广 泛 应 用 。 

不 过 NB-IoT 的 部 著 频 座 是 授权 的 ,因此 必须 由 运营 商 来 部 车 。 由 于 NB-IoT 构建 于 蜂 
帘 网 络 ,只 消耗 大 约 180 KHz 的 带宽 ,可 直接 部 团 于 GSM 网 络 .UMTS 网 络 或 LTE 网 络 。 

3) RFID 

RFID(Radio Frequency Identification ) 即 射 频 识 别 / 电 子 标签 ,这 是 一 种 非 接 触 式 的 月 动 
识别 技术 ,可 以 通过 射频 信号 目 动 识别 目标 对 象 并 获取 相关 数据 。 

RFID 由 电子 标签 .该 写 硕 和 天 线 三 个 基本 要 系 组 成 ,其 工作 原理 是 :电子 标签 进入 磁场 
后 接收 解读 需 发 出 的 射频 信号 ,凭借 感应 电流 所 获得 的 能 量 发 送出 存储 在 芯片 中 的 产品 信 
息 ( Passive Tag ,无 源 标签 或 被 动 标 签 ) ,或 者 主动 发 送 某 一 频率 的 信号 (Active Tag, 有 源 标 签 
或 主动 标签 ) ,解读 带 读 取信 息 并 解码 后 , 送 至 信息 系统 进行 相关 数据 处 理 。 

6) LoRa 

LoRa 是 LoRa 联盟 (由 Semtech 公司 发 起 ) 推出 的 一 个 基于 开源 的 MAC 层 协 议 的 
LPWAN 标准 。 严 格 来 说 ,LoRa 应 该 是 个 物理 层 协议 或 者 说 是 一 种 低 功 耗 远程 无 线 通 信 技 
术 , 可 将 其 用 于 不 同 协议 和 不 同 网 络 架 构 ( 如 Mesh 组 网 . 星 型 网 络 ,点 对 点 网 络 等 ) 。LoRa 
技术 具有 通信 距离 远 . 功 耗 低 . 文 持 多 区 扣 成 本 低 、 抗 扰 能 力 强 等 特点 ,同时 LoRa 的 传输 速 
率 较 低 ,适合 小 数据 传输 。 

LoRa 终端 分 为 A、B.\C 三 种 类 型 ,并 且 部 支持 双 回 通信 ,其 分 类 情况 如 图 23 - 94 所 示 。 


传输 模 基 才 其 自身 通信 需求 ， 其 微 贿 基 本 一 个 随机 的 时 间 基 准 ( ALOHA 协 议 ) 


上 行 传输 会 伴随 着 两 个 下 行 接收 窗口 
功 耗 最 低 

服务 器 的 下 行 通信 者 只 能 在 上 行 通信 之 后 
具有 预 设 接收 模 


LoRa 终 端 ” 日”B 类 终端 ”9 ”会 在 换 设 时 间 中 开放 多 余 的 接收 窗口 
终 靖 设 第 会 同步 从 网 关 接 收 一 个 Beacon , 通过 Beacon 将 基站 与 模块 的 时 间 进 行 同步 


具有 最 大 接收 本 
C 类 终 渍 9 
持续 开放 接收 窗口 ， 只 在 传输 时 关闭 


23 -94 LoRa 终端 分 类 


LoRaWAN 是 基于 LoRa 远 距 离 通信 网 络 设计 的 一 套 通信 协议 和 系统 架构 ,如 果 说 LoRa 
是 物理 层 协议 ,那么 LoRaWAN 就 是 MAC 层 协 议 , 正 是 由 于 这 个 原因 ,LoRaWAN 也 被 称 为 
LoRaMAC。LoRaWAN 是 一 种 基于 扩 频 技术 的 超 远 中 离 无 线 传输 方案 ,其 通信 距离 可 以 达到 
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15 km 以 上 。 

LoRaWAN 分 为 终端 .网 关 .服务 器 和 应 用 层 四 大 部 分 ,其 突出 特点 就 是 长 距离 . 功 耗 低 ， 
并 且 随 着 LoRa 通信 速率 的 降低 ,其 通信 距离 可 以 更 远 。LoRaWAN 也 文 持 通信 加 密 技 术 ,可 
以 保证 应 用 层 终端 之 间 的 安全 。 

7) 6LoWPAN 

6LoWPAN(IPv6 over Low-power Wireless Personal Area Networks ) 是 一 种 基于 IPv6 的 低速 
无 线 个 域 网 (无 线 个 人 区 域 网 络 ,WPAN ) 标 准 , 即 IPv6 over IEEE 802. 15.4 标准 。6LoWPAN 
在 物理 层 和 链 路 层 均 采用 IEEE 802. 15.4 标准 ,但 由 于 IPv6 协议 不 能 直接 基于 IEEE 802. 
15.4 标准 ,因此 需要 在 IPv6 网 络 层 和 IEEE 802. 15.4 标准 的 链 路 层 之 间 加 入 一 个 适 配 层 来 
解决 压缩 .分 片 / 重 组 .Mesh 路 由 等 问题 。 

6LoWPAN 文 持 星 型 . 树 型 Mesh 网 络 等 多 种 拓扑 结构 ,其 协议 栈 采 用 五 层 模型 , 即 传输 
层 之 上 直接 为 6LoWPAN 应 用 层 (IPv6 网 络 层 和 IEEE 802. 15. 4 适 配 层 处 于 第 三 层 ) ,如 
图 23 -95 所 示 。 


6LoWPAN 专 有 应 用 (Using Socket Intoriaco) 


TCP/IUDP 
文 持 IPv6 路 由 ， 分 片 压 挥 的 秆 配 谷 
IEEE 802.15.4 (unsiotted CSMAVCA) 


[LEEE 802.13.4 PHY 


23 -095 6LoWPAN 网 络 协议 栈 


8) TSN 
TSN(Time Sensitive Networking ,时 间 敏 感 型 网 络 ) 是 IEEE 为 在 确定 型 以 太 网 上 传输 时 
间 敏 感 型 数据 而 定义 的 一 套 标 准 ,是 下 一 代 工 业 通 信 的 标准 网 络 。 这 里 要 注意 ,TSN 是 在 
IEEE 802. 1 标准 下 基于 特定 的 需求 而 制定 的 一 套 标 准 集合 ,意图 为 标准 以 太 网 建立 时 间 敏 
感 机 制 , 以 确保 网 络 传输 的 时 间 确 定性 。 由 于 TSN 是 IEEE 802. 1 下 的 标准 ,因此 TSN 也 是 
链 路 层 的 标准 和 规范 ,也 就 是 说 TSN 将 会 为 以 太 网 协议 的 MAC 层 提供 一 套 通用 的 时 间 敏 感 
机 制 ,在 确保 以 太 网 数据 通信 的 时 间 确 定性 的 同时 ,为 不 同 协议 网 络 之 间 的 互 操 作 提 供 可 能 
性 。TSN 在 0SI 七 层 参 考 模型 中 的 位 置 如 图 23 - 96 所 示 。 
TSN 设计 的 标准 非常 多 ,但 也 不 是 贪 大 求全 地 每 种 都 需要 。 例 如 在 工业 控制 领域 ,可 能 
用 到 了 以 下 子规 范 : 
> 802. 1ASrey 时 钟 同步 :确保 连接 在 网 络 中 各 个 设备 节点 的 时 钟 同 步 , 并 达到 微 秒 级 
的 精度 误差 。 
> 802.1Qby 时 间 感 知 调度 程 序 :为 优先 级 较 高 的 时 间 敏 感 型 天 键 数 据 分 配 特 定 的 时 间 
槽 ,在 规定 的 时 间 区 间 内 ,网 络 中 所 有 节点 都 必须 优先 确保 重要 数据 帧 的 通过 。 
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工控 协议 A 工控 协议 B ”工控 协议 C 


IEEE 802.3 标 准 化 PHY 
司 23-9% TSN 在 OSI 七 层 参考 模型 中 的 位 置 

> 802. 1Qcc 网 络 管理 和 配置 :用 于 实现 对 网 络 参 数 的 动态 配置 ,以 满足 设备 节点 和 数 
据 需 求 的 各 种 变化 。 
23.3.2.2 应 用 协议 

物 联网 领域 的 应 用 协议 就 要 简单 很 多 了 。 在 此 我 们 不 准备 对 这 些 协议 进行 详细 介绍 ， 

这 是 因为 这 些 协议 在 网 上 随处 可 见 ,我们 只 是 列 出 这 些 协议 的 特点 对 比 和 一 些 答 单 介绍 ,如 

表 23 一 18 所 示 。 


表 23 一 18 常用 物 联 网 应 用 协议 比较 
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> XMPP :可 扩展 通信 与 表示 协 以 ,这 是 一 种 基于 XML 的 协议 。 

> CoAP :资源 党 限 的 应 用 协议 ,是 一 种 由 正 TF 制定 的 基于 UDP 的 REST 协议 ,包头 为 
二 进 制 压缩 格式 ,日 发 送 与 接收 可 以 异步 实现 。CoAP 用 于 低 功 耗 和 资源 党 限 的 网 
络 , 也 重 现 了 一 些 TCP 的 功能 (例如 可 以 识别 需要 确认 的 请 求 和 无 需 确 认 的 请 求 ) 。 

> MQTT :消息 队列 遥测 传输 协议 ,这 是 由 IBM 制定 的 一 种 基于 发 布 - 订 阅 模式 的 二 进 
制 协议 ,支持 TCP 的 传输 方式 。MQTT 由 云 病 负责 消息 转发 ,具备 完善 的 QoS 机 制 ， 
适合 低 审 宽 的 网 络 情况 ,主要 面 回 大 型 网 络 中 的 小 型 设备 。 

> DDS: 面 问 实 时 系统 的 数据 分 布 服务 ,这 是 一 种 基于 发 布 -订阅 模式 的 应 用 协议 。 

> AMQP: 高 级 消 旦 队列 协议 ,这 也 是 一 种 基于 发 布 - 订 阅 模 式 的 应 用 协议 。 

> JMS.:Java 消息 服务 (Java Message Service ) 应 用 程序 接口 ,这 是 一 个 Java 平台 中 面 问 
消息 中 间 件 (MOM ) 的 API。 

> REST/HTTP :REST 是 一 种 架构 设计 规范 ,是 基于 HTTP 协议 的 ,本 质 上 是 一 种 API 
规范 。 

此 外 还 有 WebSocket, 这 是 一 种 全 双 工 的 通信 和 组件。 在 WebSocket API 中 ,浏览 需 

和 服务 器 只 知 要 完成 一 次 握手 就 可 以 下 接 创 建 持久 性 连接 ,并 进行 双 同 数据 传输 。 


23.4 网 络 安全 


广义 的 网 络 安全 是 个 很 大 的 领域 ,从 防御 对 象 的 侧重 点 和 防御 技术 的 特征 等 角度 可 以 
分 为 以 下 几 个 细 分 领域 : 

> 操作 系统 安全 :要 解决 的 是 操作 系统 漏洞 检测 与 防御 内存 与 缓存 数据 安全 .CPU 侧 
信道 攻击 与 防御 .主机 流量 安全 等 问题 。 多 采用 挂 钧 技术 或 过 滤 型 驱动 的 方式 进行 
防御 与 检测 。 随 看 攻击 技术 的 发 展 ,这 个 领域 的 技术 交锋 越 来 越 向 底层 渗透 

> 应 用 安全 :主要 是 指 操作 系统 中 应 用 软件 的 安全 ,包括 这 些 软件 的 漏洞 扫描 和 修复 、 
代码 安全 、Web 应 用 安全 域名 安全 、 防 算 改 、 防 病毒 WAF( Web Application Firewall， 
Web 应 用 防护 系统 ) 等 。 

> 访问 授权 安全 :包括 数字 证 书 .身份 认证 数据 加 筠 等 内 容 , 看 重 解 决 的 是 数据 资源 的 
访问 权限 问题 ,要 做 到 不 该 访问 的 不 能 访问 ,即使 访问 了 也 看 不 以。 

> 狭义 网 络 安全 :看 重 解决 各 种 网 络 攻击 ,例如 各 种 DDoS 攻击 .中间人 攻击 ,劫持 攻击 
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等 ,一 般 采 用 防火 墙 IDS IPS 等 技术 或 设备 进行 防御 和 阻 断 。 

> 数据 安全 :要 解决 的 是 数据 防 泄密 ,磁盘 数据 加 解密 、 大 数据 安全 数据库 安 全 等 问 
题 ,一 般 采 用 各 种 对 称 或 非 对 称 加 解密 算法 以 及 数字 证 书 等 技术 予以 实现 。 

> 移动 安全 :这 主要 是 指 手 机 端的 安全 ,包括 移动 端 操作 系统 安全 移动 问 应 用 安全 、 移 
动 端 数据 安全 和 访问 安全 等 。 

> 云 安全 :要 解决 的 是 云 环境 下 的 网 络 安全 .系统 安全 ,应 用 安全 、 容 融 安 全 等 问题 。 云 
安全 的 核心 要 素 包 括 云 抗 DDoS( 分布 式 拒绝 服务 ) 攻击 云 WAF 、 刁 份 验证 管理 . 主 
机 和 操作 系统 安全 ,虚拟 机 安全 容器 安全 等 内 容 。 

> 视 联 网 / 物 联网 安全 : 视 联 网 和 物 联 网 安全 除了 要 解决 狭义 网 络 安全 所 面临 的 各 种 攻 
击 外 ,还 要 解决 终端 设备 的 仿冒 与 可 信 、 终 病 设 备 目 身 的 防护 (防止 被 劫持 成 为 “ 肉 
鸡 ”) .设备 的 安全 启动 /可 信和 启动 以 及 终端 设备 的 安全 接 人 等 问题 。 

> 工业 互联 网 安全 :这 主要 是 指 工业 领域 的 系统 安全 ,包括 心 片 .设备 、 操 作 系统 .关键 
软件 (例如 工业 领域 常见 的 SCADA 数据 采集 与 监控 系统 等 ) .关键 模块 的 日 主 研发 和 
安全 可 控 , 保 证 系统 不 被 植 人 恶意 程序 和 间谍 软件 等 APT 代码 。 

> 可 信 计 算 : 目 前 可 信 计 算 技术 已 经 演进 到 了 3.0 的 时 代 , 其 主要 技术 特征 是 基于 主动 
免疫 技术 识别 “日 我 "和 “ 非 我 ”。 
。 模拟 了 人 体 免 疫 系 统 的 工作 机 制 ,对 系统 "上 自身 固有 ”和 ”外 来 移植 ”的 成 分 进行 鉴 

别 , 从 而 破坏 和 排斥 进入 系统 机 体内 的 有 害 成 分 (APT 等 恶意 程序 ) 。 
。 相当 于 为 网 络 和 信息 系统 培育 了 免疫 能 力 ,使 其 自身 就 具有 防护 的 能 力 ,其 主要 
技术 手段 是 以 密码 为 基础 的 身份 识别 .状态 度量 .保密 存储 等 。 

> 自主 可 控 : 由 于 众所周知 的 原因 ,自主 可 控 已 经 成 为 我 国 网 络 安全 领域 的 重要 一 环 。 
月 主 可 控 主 要 是 指 芯 片 .主板 操作 系统 和 关键 软件 /中 间 件 的 上 自主 可 控 , 特 别 是 核心 
技术 ,核心 模块 的 日 主 可 控 。 要 解决 好 在 目前 的 软件 生态 下 芯片 /操作 系统 可 移植 性 
的 问题 ,例如 从 X86/X64 架构 向 ARM 架构 的 切换 、 从 Windows 系统 回国 产 ARM/ 
X86/X64 架构 操作 系统 的 切换 基于 新 操作 系统 的 编译 右 人 研发 .虚拟 机 的 研发 等 。 

接 下 来 主要 讲述 狭义 的 网 络 安全 问题 都 包含 哪些 方面 ,并 着 重 介 绍 视 联网 领域 的 安全 

问题 与 解决 思路 ,最 后 简单 总 结 自 主 可 控 的 相关 现状 。 


23.4.1 狭义 网 络 安全 


狭义 网 络 安全 是 指 设备 在 网 络 上 所 遭 党 到 的 各 种 攻击 ,例如 ICMP Flood 攻击 、SYN 攻 
击 .中 间 人 攻击 .DNS 动 持 每 。 下 文中 我 们 将 列举 一 些 和 常见 的 网 络 攻击 类 型 。 

1) SYN 攻击 

SYN 攻击 是 一 种 TCP Flood 攻击 ,利用 的 是 TCP 三 次 握手 过 程 中 的 漏洞 。 三 次 握手 的 
正常 过 程 如 图 23 -97 所 示 。 


全 


SYN 攻击 就 是 利用 三 次 握手 过 程 中 的 第 二 步 


应 用 软件 开发 协议 栈 LN 


EE [最 务 融 ] 


SYN_SENT, SYN=] seq=] 


ISYN_RCVD 


SYN=1,ACK=1 ack=J+]1,segq=K 


ESTABLISHED ， 


ACK=] ack=K+] 
'ESTABLISHED 
图 23-9%7 TCP 的 三 次 握手 过 程 


服务 端 发 送 了 SYN-ACK 之 后 .但 在 收 


到 第 三 步 的 ACK 之 前 的 半 连 接 状 态 ( 服 务 靖 处 于 SYN_RCVD ) 进行 的 Flood 攻击 。 其 具体 
做 法 是 伪造 若干 不 存在 的 地 址 向 服务 端 大 量 发 送 SYN 包 , 使 服务 端的 socket 产生 大 量 半 连 
接 状态 。 由 于 源 地 址 不 存在 ,因此 服务 端 回复 的 SYN-ACK 不 会 被 确认 并 直到 连接 超时 。 在 
这 种 情况 下 大 量 服 务 端的 SYN 包 将 长 时 间 占 用 未 连接 队列 ,从 而 导致 正常 的 SYN 请 求 因为 
队列 满 而 被 丢弃 。 因 此 SYN 攻击 也 是 一 种 DoS( 拒绝 服务 ) 攻击 。 

一 般 来 说 ,对 于 SYN 攻击 的 防御 可 以 采用 以 下 两 种 策略 : 

> 过 滤 网 关 防 护 : 这 些 网 关 是 指 防火 墙 等 设备 。 具 体 可 以 采用 如 下 机 制 抵御 SYN Flood 


设置 网 关 超 时 机 制 :防火 增收 到 客户 端的 SYN 请 求 后 开始 计数 , 当 计数 需 到 期 后 
还 未 收 到 客户 冰 的 ACK 包 , 则 加 服务 端 发 送 RST 包 以 结束 当前 的 半 连 接 状 态 。 
这 是 一 种 主动 缩短 半 连 接 等 竺 周期 的 机 制 。 

SYN 网 关机 制 :网 关 收 到 客户 端的 SYN 包 后 转发 给 服务 端 , 在 收 到 服务 端的 SYN- 
ACK 回复 后 也 转发 给 客户 端 。 此 时 再 以 客户 端的 名 义 给 服务 端 发 送 ACK 包 以 使 
服务 端 尽快 结束 半 连 接 状 态 而 进入 ESTABLISHED 状态 。 当 客户 端的 ACK 包 到 
达 时 , 硅 包 中 有 数据 则 转发 给 服务 端 ,没有 则 丢弃 。 这 是 一 种 避免 半 连接 等 待 的 
机 制 。 

SYN 代理 机 制 :SYN 代理 网 关 加 闭 在 服务 并 之 前 ,由 代理 网 关 去 阻挡 SYN Flood 
攻击 ,这 要 求 代理 网 关 有 很 强 的 防范 和 处理 能 力 。 有 的 SYN 代理 具备 Cookie 源 认 
证 功能 ,当代 理 网 关 啊 应 SYN-ACK 报 文 时 市 上 特定 的 Cookie( 不 是 指 客户 端 起 始 
seq num, 而 是 一 个 随机 的 seq num ,因为 双方 的 起 始 报 文 序 号 可 以 是 任意 的 ) ,如 
果 是 真实 的 客户 闹 则 会 返回 ACK(seq num 加 1) 或 RST(seq num 不 正确 ) ,而 恶意 
的 客户 问 则 不 会 啊 应 返回 ,此 时 可 以 利用 黑白 名 单机 制 将 这 些 源 地 址 作 区 分 
标注 。 


> 加 固 TCP/IP 协议 栈 : 通 过 在 TCP/AIP 协议 栈 驱 动 中 增加 防御 机 制 而 使 服务 端 本 号 具 
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备 一 定 的 防御 能 力 。 可 以 对 TCP/IP 协议 栈 驱动 做 以 下 加 固 : 


延缓 性 机 制 :诸如 SynAttackProtect 机 制 等 ,包括 在 服务 端 系统 中 增加 最 大 半 连 接 
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数 和 缩短 超时 时 间 等 措施 使 服务 端 系统 能 处 理 更 多 的 SYN 连接 。 
。 SYN Cookies 机 制 .服务 端 在 第 二 步 回 复 SYN-ACK 报 文 时 并 不 分 配 缓冲 区 队列 等 
资源 ,而 是 根据 上 一 步 的 SYN 包 计 算出 一 个 Cookie 值 并 作为 返回 的 SYN-ACK 报 
文 的 seq num , 当 客 户 闪 返回 ACK 包 时 会 根据 包头 信息 计算 出 Cookie 并 与 返回 的 
确认 序列 号 作对 比 , 相 同 则 证 明 这 是 一 个 正常 的 连接 ,之 后 再 分 配 资源 建立 连接 。 
2) TCP 会 话 动 持 攻 击 
由 于 TCP 协议 并 没有 对 TCP 的 传输 包 进 行 身 份 验 证 ,所 以 在 我 们 知道 一 个 TCP 连接 中 
的 SEQ 和 ACK 的 信息 后 就 可 以 很 容易 地 伪造 传输 包 ,假装 成 任意 一 方 与 另 一 方 通信 ,这 一 
过 程 被 称 为 TCP 会 话 劫持 (TCP Session Hijacking) 。 
一 般 来 说 劫持 分 为 5 个 步骤 , 即 选 定 攻击 目标 (支持 TCP 协议 , 报 文明 文 传输 等 ) . 选 定 
TCP 会 话 猜测 序列 号 .迫使 客户 端 下 线 .接管 会 话 。TCP 会 话 支持 的 难点 在 于 猜测 序列 号 ， 
因为 TCP 本 身 的 限制 ,ACK 序列 号 必须 单 向 递增 。 
对 于 TCP 会 话 劫持 的 防御 策略 是 在 网 络 层 采 用 IPSec 协议 ,从 而 使 得 劫持 者 无 法 猜测 
出 会 话 序列 号 。 
3) UDP Flood 攻击 
UDP Flood 是 一 种 带宽 类 的 DoS 攻击 , 即 短 时 间 内 向 目标 主机 发 送 大 量 UDP 报 文 ,一 来 
是 消耗 审 宽 资源 ,二 来 是 消耗 被 攻击 主机 的 计算 资源 。 
一 般 采 用 限 流 的 方式 抵御 UDP Flood 攻击 ,包括 基于 目的 地 址 的 限 流 .基于 目的 安全 区 
域 的 限 流 和 基于 会 话 的 限 流 等 策略 。 
4) ICMP Flood 攻击 
ICMP Flood 攻击 的 原理 是 短 时 间 内 加 特定 目标 不 断 请 求 ICMP 回应 ,致使 目标 系统 负 
担 过 重 而 不 能 处 理 合法 的 传输 任务 。 这 是 一 种 典型 的 DoS 攻击 。 
5) 卫 分 斤 攻 击 
IP 分 片 攻 击 的 原理 是 攻击 者 给 目标 主机 只 发 送 一 片 分 片 报 文 (IP 报 文 ) 而 不 发 送 所 有 
的 分 片 报 文 , 这 样 被 攻击 者 便 会 一 下 等待 和 是 到 超时 ,从 而 消耗 了 大 量 计算 资源 。 
6) 滴 泪 攻击 
滴 泪 攻击 也 是 分 片 攻击 的 一 种 。 这 种 攻击 的 原理 是 卫 协议 在 传输 过 程 中 对 过 大 的 数 
据 会 进行 分 包 处 理 , 传 输 到 目的 主机 后 再 到 堆栈 中 进行 重组 。 
为 实现 重组 ,IP 包 的 包头 中 含有 说 明 该 分 段 是 源 数据 中 哪 一 段 的 信息 。 如 果 发 送 伪造 
的 含有 重 僵 仿 移 信息 的 分 段 包 到 目标 主机 , 当 被 攻击 主机 试图 将 分 段 包 重组 时 ,由 于 分 段 数 
据 的 错误 ,重组 过 程 会 引起 内 存 错 误 , 继 而 可 能 导致 协议 栈 的 朋 演 。 
7) Smurf 攻击 
在 这 种 类 型 的 攻击 中 ,攻击 者 把 ICMP ECHO 的 源 地 址 设置 为 一 个 广播 地 址 ,计算 机 在 
回复 ICMP REPLY 的 时 候 就 会 以 广播 地 址 为 目的 地 址 ,这 样本 地 网 络 上 所 有 的 计算 机 都 必 
须 处 理 这 些 广播 报 文 。 如 果 攻 击 者 发 送 的 ICMP ECHO 请 求 报 文 足够 多 ,产生 的 REPLY 广 
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播报 文 就 可 能 把 整个 网 络 淹 没 。 

Smurf 攻击 的 防范 措施 包括 :路 由 需 禁 止 IP 广播 包 , 使 网 络 上 所 有 主机 禁止 对 目标 为 广 
播 地 址 的 ICMP 包 响 应 等 。 

以 上 的 攻击 类 型 都 是 比较 常见 的 , 男 外 还 有 死亡 之 ping 攻击 、IP 欺骗 攻击 、Land 攻击 
等 ,还 包括 针对 路 由 需 的 路 由 协议 攻击 .针对 转发 设备 的 转发 表 攻 击 等 ,这 里 就 不 一 一 列 
Ts 


23.4.2 视 联网 安全 


视 联网 除了 要 应 对 狭义 的 网 络 安 全 问题 外 ,还 要 针对 与 视频 设备 相关 的 攻击 做 出 防御 
和 阻 断 ,特别 是 在 公安 视频 专 网 中 ,这 些 问题 尤为 突出 。 与 视频 相关 的 安全 问题 包括 监控 设 
备 接 人 ( 私 接 ) .监控 设备 仿冒、 服务 硕 安全 .协议 安全 .数据 截获 ,网络 隅 离 等 ,而 这 些 问 题 可 
以 归纳 为 两 大 类 

> 设备 接 入 问题 :包括 设备 私 接 准 入 .仿冒 ,被 操控 等 问题 ， 

> 网 络 隔离 问题 :包括 协议 安全 .数据 安全 视频 专 网 与 互联 网 的 隔离 等 问题 。 

1. 设备 接 入 问题 

监控 设备 的 接 入 一 般 是 通过 GB/T 28181 或 Onvif 等 协议 实现 的 。 但 是 这 些 协议 都 是 五 
层 及 以 上 的 协议 ,平台 侧 验 证 的 是 协议 的 报 文 头 和 报 文 体 ,一般 不 验证 协议 从 哪 来 .到 哪 去 ， 
是 不 是 由 合法 的 监控 终端 发 出 的 等 一 系列 与 安全 相关 的 信息 。 这 些 问题 总 结 起 来 就 是 私 
接 . 准 入 仿冒 ,这 里 的 仿冒 是 指 以 别 的 什么 设备 来 代 蔡 监控 终端 接 人 到 网 络 里 。 

要 解决 这 些 问题 ,除了 在 平台 侧 做 校 验 ,做 认证 之 外 ,比较 有 效 的 技术 手段 就 是 “设备 指 
纹 ” ,由 于 视 联网 领域 的 大 多 数 设备 都 是 视频 监控 设备 ,因此 也 被 称 为 *IPC(1IP Camera ) 指 

通俗 地 讲 ,IPC 指纹 就 是 利用 设备 里 面 的 操作 系统 厂商 信息 、MAC 地 址 \IP 地 址 、 病 口 
号 .协议 类 型 等 信息 进行 综合 识别 而 形成 的 跟 每 一 台 具 体 设 备 相关 的 私有 信息 ,这 些 信 息 像 
指纹 一 样 具 有 设备 标识 的 唯一 性 ,而 且 不 容易 仿 骨 。 特 别 是 每 种 终端 从 第 二 层 到 第 七 层 每 
一 层 的 协议 都 是 不 同 的 ,因此 可 以 使 用 第 二 层 到 第 七 层 的 协议 特征 作为 设备 指纹 的 基础 信 
息 。 图 23 -98 展示 了 通过 IPC 指纹 进行 设备 准 入 的 流程 。 

设备 三 商 需要 构筑 自己 的 设备 指纹 库 ,例如 根据 上 述 信息 对 指纹 的 基本 形态 构成 模板 
链 , 使 用 时 进行 匹配 。 而 主机 侧 可 以 构筑 可 信 的 日 名 单 库 来 对 终端 设备 进行 准 人 比 对 。 一 
般 来 说 ,IPC 指纹 检测 可 以 分 为 主动 和 被 动 两 种 方式 : 

> 主动 方式 :由 主机 侧 向 设备 发 送信 息 来 获取 回复 报 文 ,以 获得 IPC 设备 的 厂商 、 系 统 

版 本 、MAC 地 址 等 信息 。 例 如 回 某 设备 发 送 ICMP ECHO 报 文 ,根据 返回 的 ICMP 
REPLY 报 文 的 报 文 头 和 报 文体 的 信息 来 判断 识别 指纹 信息 。 
> 被 动 方式 :通过 监听 截获 设备 的 通信 协议 来 研判 和 识别 设备 的 指纹 。 
设备 指纹 不 仅 可 以 应 用 在 视 联 网 领域 ,在 物 联网 领域 也 是 可 以 大 有 作为 的 。 但 由 于 物 
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联网 领域 的 协议 比较 夭 杂 而 且 轻 量 级 ,不 像 视 联网 领域 的 协议 庞大 而 单一 ,因此 和 磊 只 通过 通 
信 协 议 本 喘 来 判断 指纹 ,其 误 判 率 会 比较 局。 


终端 接 入 终 疹 认 证 终端 入 网 终端 在 网 监控 


图 23-98 ”通过 IPC 指纹 进行 设备 准 入 的 流程 


2. 网 络 隔离 问题 

在 视 联网 中 经 贡 会 遇 到 网 络 隔离 的 情况 ,例如 办 公 网 ,政务 网 公安 专 网 /内 网 .互联 网 
等 各 种 网 络 的 隔离 。 巾 于 每 种 网 络 的 安全 级 别 不 一 样 ,面临 的 安全 威胁 也 不 尽 相 同 ,因此 在 
面 对 多 种 异 质 网 络 的 问题 时 要 特别 注意 安全 隔离 , 既 要 做 到 保证 数据 的 互联 互通 ,又 要 做 到 
安全 威胁 的 阻 断 陋 绝 。 特 别 是 公安 专 网 /内 网 的 安全 等 级 很 高 ,不 允许 有 攻击 和 威胁 的 发 
生 ; 而 互联 网 则 面向 大 众 , 其 安全 级 别 较 低 ,网 络 上 的 攻击 事件 层出不穷 ,因此 公安 专 网 /内 
网 和 互联 网 之 间 做 隔离 时 要 格外 注意 这 个 问题 。 

目前 可 采用 较 多 的 手段 对 这 些 网 络 进行 隔离 保护 ,例如 中 转 网 关 + 缓 冲 阳 离 网 络 的 方 
式 , 但 比较 常用 和 制式 化 的 方式 还 是 网 闻 和 安全 接 入 平台 。 

1) 网 闸 

说 到 网 闸 ,就 不 得 不 先 提 及 “安全 隔离 技术。 安全 隔离 (CAP) 技 术 的 核心 是 定义 应 用 
数据 日 名 单 ,并 通过 安全 方式 获取 数据 ,进行 效 据 校 验 和 内 容 检查 ,再 通过 安全 方式 发 送 数 
据 。 网 闻 的 基本 架构 体现 了 这 一 核心 思路 ,如 图 23 一 99 所 示 。 


GAP 
PJ, 
专用 客户 端 | 

数据 灵 换 


应 用 服务 器 


图 23 -9% ”应 用 GAP 技术 的 网 闸 体 系 结构 
EE) 
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从 图 23 -99 中 可 以 看 出 ,基于 GAP 技术 的 网 闸 一 般 采 用 以 下 策略 和 机 制 实现 隔离 . 

> 多 人 台 主 机 采用 专用 人 硬件 串联 形成 纵深 防御 的 体系 架构 ,这 样 即 使 外 侧 的 主机 被 攻击 ， 
内 部 的 主机 也 是 安全 的 。 

> 硬件 架构 中 多 采用 专用 的 防 算 改 硬件 阻隔 TCP/IP 通信 ,以 保证 数据 传输 和 检查 机 制 
的 固件 化 特性 和 防 算 改 特性 ,做 到 真正 的 物理 隔离 。 

> 只 允许 白 名 单 内 来 源 的 请 求 ,拒绝 任何 未 知 来 源 的 主动 式 请 求 。 

> 应 用 层 效 据 的 谈 写 都 是 通过 主动 请 求 .专用 API 或 专用 客户 端的 方式 进行 的 ,这 些 
API 或 客户 病 能 够 针对 各 种 未 知 的 请 求 进 行 堆 栈 溢出 .拒绝 服务 攻击 等 安全 检查 ; 同 
时 GAP 以 主动 的 方式 辐 客 户 端 请 求 资源 ,这 样 也 可 以 避免 开放 端口 遭受 攻击 。 

> 文 持 用 户 通 过 扩展 定义 的 方式 对 数据 内 容 进 行 增强 检查 ,包括 检查 内 容 中 是 否 存 在 
可 执行 代码 , 报 文 格式 是 否 规范 等 。 

从 表 23 一 19 中 可 以 看 出 ,GAP 技术 与 防火 墙 技术 面 癌 的 层次 是 相当 不 同 的 ,GAP 要 对 
应 用 数据 进行 检查 , 面 回 的 是 第 五 层 到 第 七 层 的 数据 ,而 防火 墙 更 多 的 是 对 第 四 层 及 以 下 层 
次 的 协议 数据 进行 校 验 。 

表 23 一 19 GAP 与 防火 墙 技术 对 比 
安全 隔离 (GAP) 技术 防火 墙 (Firewall) 技术 
基于 物理 隔离 的 白 名 单 控 制 基于 连通 网 络 的 黑 名 单 控 制 
多 主机 形成 纵深 防御 ,保证 隔离 效果 单 主 机 多 宿主 
专用 隔离 硬件 无 专用 数据 交换 人 硬件 


不 允许 TCP 会 话 人 允许 TCP 会 话 
不 允许 从 外 到 内 的 访问 允许 从 外 到 内 的 访问 
可 以 最 大 限度 防止 未 知 攻击 不 能 防止 未 知 攻击 


确保 安全 性 能 所 需 的 管理 和 维护 工作 量 小 ，| 需要 7 x24 监控 ,确保 安全 性 能 ;对 


2) 视频 安全 接 入 平台 

视频 安全 接 入 平台 是 个 非常 贴近 行业 应 用 的 产品 。 公 安 的 视频 应 用 资源 一 般 划 分 为 社 
会 面 资 源 和 公安 面 资源 两 类 。 所 谓 社 会 面 资源 大 多 是 非 公 安 承 建 的 视频 资源 ,这 些 资源 一 
般 分 布 在 企业 网 .互联 网 .园区 网 等 安全 等 级 相对 较 低 的 网 络 中 ; 而 公安 面 资源 就 是 由 公安 
承建 并 分 布 于 公安 视频 专 网 的 视频 资源 ,这 种 网 络 的 安全 等 级 很 高 。 而 在 公安 的 网 络 体 系 
中 还 存在 公安 内 网 ,这 部 分 网 络 中 存放 有 密级 更 高 的 数据 资源 ,承载 了 公安 日 党 办 公 办案 
的 信息 和 数据 ,因此 对 内 网 的 访问 必须 慎之 又 慎 。 可 以 看 出 ,这 三 种 网 络 按照 安全 等 级 的 高 
低 排 序 为 :公安 内 网 > 公安 专 网 > 社会 资源 网 。 

视频 安全 接 人 平台 就 是 在 这 种 场景 下 诞生 的 , 它 的 核心 任务 是 采用 必要 的 安全 隔离 设 
备 ,对 应 用 服务 区 进入 公安 信息 通信 网 (公安 专 网 /内 网 ) 的 数据 进行 协议 剥离 ,视频 数据 和 
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控制 信 令 以 专用 数据 块 的 方式 “摆渡 ”传输 ,在 此 过 程 中 还 要 进行 必要 的 校 验 ,以 此 来 实现 公 
安信 息 通信 网 和 应 用 服务 区 之 间 的 安全 数据 交换 ,如 图 23 - 100 所 示 。 


接 入 对 象 “外 部 接 入 链 路 视频 接 入 平台 公安 信息 通信 网 


视频 数据 与 控制 信人 学 


安全 监测 与 管理 


加 23 一 100 有 某 视 频 安全 接 入 平台 的 体系 架构 


视频 安全 接 人 平台 从 逻辑 上 可 以 分 为 路 由 接 人 区 .边界 防护 区 .应 用 服务 区 .安全 隔离 
区 等 几 个 部 分 ,其 中 针对 视频 媒体 数据 又 可 以 增设 前 置 和 后 置 视频 服务 器 ,以 方便 对 视频 进 
行 透 传 和 校 验 。 
综 上 所 述 ,视频 安全 接 人 平台 具有 以 下 特征 : 
(1) 视频 协议 的 安全 控制 ,包括 : 
> 仅 人 允许 高 密级 网 络 中 被 授权 的 终端 访问 低 密 级 网 络 的 资源 ,不 允许 反 向 访问 。 
> 要 对 交互 的 信 令 报 文 与 媒体 数据 进行 校 验 ,例如 报 文 尖 的 源 和 目的 端的 URI 是 否 合 
法 、 源 和 目的 端的 地 址 和 端口 是 否 合 法 、 封 装 媒 体 流 的 RTP 包头 中 的 SSRC 是 否 合 
> We 以 配置 ,可 以 动态 调整 对 数据 包 的 检测 深度 。 
(2) 通信 羡 口 支持 动态 开启 和 关闭 ,包括 : 
> 视频 安全 接 入 平台 只 允许 开放 少量 的 端口 (TCP + UDP) ,从 而 杜绝 由 于 端口 开放 过 
多 时 间 过 长 而 造成 的 风险 。 
> 不 交换 数据 时 流 媒体 的 通信 器 口 处 于 关闭 状态 ,只 有 需要 时 才 启 用 ,使 用 完成 仍然 
(3) 身份 认证 与 授权 :视频 安全 接 入 平台 支持 使 用 人 员 的 身份 认证 (例如 通过 数字 证 书 
的 方式 认证 ) .用户 访问 授权 以 及 权限 管理 等 功能 。 
(4) 亚 意 代码 防护 ,包括 : 
> 安全 接 入 平台 禁止 来 日 外 部 的 对 内 网 操作 系统 、 文 件 资源 或 其 他 应 用 进程 的 操作 
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> 必要 时 对 视频 流 的 内 容 进 行 校 验 , 检 查 是 否 “ 夹 市 ”可 执行 文件 数据 ,同时 也 要 求 视频 
流 的 接收 端 安装 必要 的 防护 软件 。 

(5) 访问 控制 :视频 安全 接 人 和 平台 能 够 细 粒 度 地 对 访问 进行 控制 ,例如 校 验 访问 的 源 和 
目的 端的 地 址 和 端口 .访问 时 间 ,行为 权限 等 。 

总 之 ,视频 安全 接 人 平台 是 个 非常 贴近 视频 监控 业务 应 用 的 产品 ,其 安全 级 别 能 动态 调 
整 设置 ,支持 目前 较为 通用 的 规范 标准 (GBXT 28181 .GB 35114 等 ) ,具备 对 视频 流 进行 深度 
包 检 测 ( Deep Packet Inspection ,DPI) 的 能 力 ,并 在 此 基础 上 保证 一 定 的 通信 效率 。 视 频 安全 
接 人 平台 更 像 一 个 " 边 检 站 ”, 对 收 到 的 所 有 数据 都 会 搞 量 搞 量 是 否 合 法 。 除 此 之 外 ,还 有 光 
疗 .二 维 码 网 关 等 安全 设备 都 可 应 用 于 视 联 网 安全 。 


23.4.3 自主 可 控 


近 几 年 来 ,日 主 可 控 .安全 可 信 越 来 越 为 业界 所 认同 。 在 信息 技术 领域 ,在 两 个 方面 有 
着 较 高 的 自主 可 控 的 呼声 ,一 个 是 芯片 , 另 一 个 是 操作 系统 。 世 片 方面 最 核心 的 还 是 地 位 最 
高 且 复 杂 度 也 最 高 的 CPU ,而 操作 系统 方面 最 核心 的 是 与 现 有 X86/X64 如 构 兼容 匹配 的 果 

CPU 的 目 主 可 控 的 标准 是 什么 ”目前 国内 比较 公认 的 就 是 三 条 : 

> CPU 指令 系统 可 持续 性 的 自主 发 展 ; 

> CPU 核心 源 代 人 码 的 目 主 开发 ; 

> CPU 研制 厂商 符合 安全 自主 保密 的 可 靠 性 要 求 。 

从 这 个 角度 来 说 ,CPU 的 自主 可 控 之 路 貌似 只 有 两 条 , 即 . 

> 日 己 定义 全 新 的 指令 集 , 重 新 打 豆 男 开张 ， 

> 购买 CPU 指令 集 授权 (例如 永久 性 授权 ) ,并 在 此 基础 上 扩展 目 己 的 指令 集 。 

可 以 看 出 ,前 者 是 一 条 “重新 发 明 轮 子 ” 之 路 ,这 条 路 的 确 是 最 符合 “自主 可 控 \ 安 全 可 
信 ” 的 ,但 却 无 法 适应 于 当前 主流 处 理 占 架构 下 成 熟 的 软 人 硬件 生态 ,更 是 直接 地 将 现 有 的 软 
硬件 体系 当 作 日 己 的 对 手 盘 ,因此 无 论 是 可 行 性 还 是 时 间 等 成 本 都 是 无 法 估量 的 ,是 不 可 
取 的 。 

而 后 者 才 是 目前 唯一 可 行 、 唯 一 现实 的 道路 ,也 是 为 国内 大 多 数 CPU 厂商 所 采用 的 。 
这 条 路 相 比 软 核 授 权 和 人 硬 核 授权 对 厂商 的 要 求 更 高 ,因为 架构 授权 相当 于 只 拿 到 了 处 理 带 
的 接口 描述 和 设计 思想 ,布线 和 内 部 接口 等 工作 都 要 自主 设计 ,难度 可 想 而 知 ,当然 自主 化 
程度 也 是 最 高 的 。 

既然 谈 到 了 指令 集 授 权 ,我 们 不 得 不 先 重 温 一 下 CPU 的 架构 流派 (指令 集 染 构 在 前 文 
中 已 有 所 描述 ) 。 

> X86/X64 体系 架构 ;是 服务 右 和 时 面 系统 中 占有 率 冠 绝 群 雁 的 体系 架构 ,天 津 海光 和 

上 海 兆 世 是 国内 生产 X86 CPU 的 龙头 企业 。 但 致命 的 缺点 是 X86 指令 集 是 不 开放 
授权 的 ,因此 在 商用 领域 X86 CPU 的 自主 可 控 是 个 很 旭 粹 的 话题 。 
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> ARM 体系 架构 :ARM 絮 构 一 个 最 突出 的 特点 是 节能 ,包括 飞腾 、 华 为 海 思 、 展 讯 、 华 
心 通 等 厂商 都 在 从 事 ARM CPU 的 人 研发 ,其 中 飞腾 可 以 对 ARM CPU 计算 模块 的 代 但 
进行 修改 ;华为 拥有 ARMv8(64 位 指令 集 ) 的 永久 性 授权 ,并 且 出 广 的 泰山 服务 希 都 
已 开始 采用 ARM CPU 了 。 不 过 在 商业 市 场 环境 下 ARM 指令 集 的 扩展 只 能 在 预 留 的 
接口 下 实现 。 
> MIPS 体系 架构 .包括 国内 的 龙 心 、 君 正 在 内 的 CPU 均 采 用 MIPS 架构 ,其 中 龙 心 获得 
了 MIPS 架构 的 永久 授权 ,可 以 在 指令 集 上 做 修改 。MIPS 架构 在 交换 机 工控 机 等 特 
种 计算 机 领域 有 较 多 应 用 。 
> Alpha 体系 架构 :包括 国内 的 申 威 等 品牌 在 内 的 CPU 采用 了 以 高 性 能 著称 的 Alpha 
架构 ,其 中 申 威 获得 了 Alpha 架构 的 永久 授权 ,可 以 在 该 体系 架构 下 扩展 指令 集 。 
> Power 体系 架构 :也 是 一 种 高 性 能 架构 ,国内 的 中 展 宏 改 CPU 采用 的 就 是 这 种 染 构 。 
除 以 上 体系 外 ,在 精简 指令 集 领域 还 有 一 个 新 秀 , 即 RISC-V。 这 是 一 种 免费 .开放 的 处 
理 器 架构 ,支持 自由 扩展 而 没有 授权 方面 的 限制 ,并 且 支 持 32 位 和 64 位 两 种 寻 址 体系 ,性 
能 方面 也 很 不 错 , 似 乎 是 自主 可 控 CPU 的 另 一 片 明光 。 
不 过 ,虽然 RISC-V 对 在 核心 指令 集 之 外 的 扩展 没有 任何 限制 ,但 如 果 任 由 这 种 百花 齐 
放 的 格局 形成 也 会 造成 CPU 生态 的 雁 斤 化 。 对 于 不 被 纳入 RISC-V 核心 标准 的 扩展 ,其 生 
态 不 被 支持 ,这 样 就 需要 自己 打造 生态 ,可 能 会 遭遇 适 配 .专利 等 各 种 问题 。 
综 上 所 述 ,目前 复杂 指令 集 (CISC ) 体 系 还 是 以 X86/X64 称 王 ,精简 指令 集 (RISC ) 体系 


场 份额 ,因此 可 以 预见 以 X86/X64 和 ARM 为 代表 的 CPU 体系 架构 会 逐渐 一 统 江湖 。 
除了 CPU ,操作 系统 的 自主 可 控 同 样 章 要 。 不 过 这 个 领域 的 情况 似乎 要 比 CPU 领域 好 
一 些 ,目前 国产 操作 系统 大 致 可 以 分 为 如 图 23 -101 所 示 的 几 种 。 


深度 Linux ( Deepin ) /桌面 系统 ，LInux 内 核 

中 兴 新 支点 操作 系统 

红旗 Linux ( RedFlag Linux ) 

银河 麒麟 ( Kylin ) 操作 系统 /国防 科技 大 学 研制 ， 其 安全 性 非常 


高 ， 包 括 实时 版 、 安 全 版 、 服 务 器 版 三 个 版 本 ， 简 化 版 是 基于 服务 
器 版 简化 所 的 
中 标 朋 应 Linux// 应 用 于 金融 行业 ， 政 府 部 门 和 央企 的 桌面 系统 

凝 思 贺 石 安全 操作 系统 // 首 款 由 公安 信息 安全 中 心 认证 的 等 保 4 级 操 
作 系 统 ， 应 用 于 重要 行业 


国产 操作 系统 上 


桌面 版 
| $sPG 思 普 操作 系统 ( 简称 SPGnux ) 忆 


阿里 云 操 作 系 统 (YunOS) 
移动 端 操作 系统 Sr 一 
， 华为 鸿 蒙 系 统 ( HongmengOs 或 HomonOs、HMODS ) 


23 一 101 国产 操作 系统 


以 深度 操作 系统 为 例 , 它 又 可 分 为 果 面 版 ,服务 右 版 (与 果 面 版 操作 系统 相 比 ,服务 厅 版 
一 般 来 说 内 核 配置 参数 不 同 : 和 面 版 具有 更 高 的 前 台 啊 应 性 能 ,服务 融 版 则 更 倾 站 于 后 人 台 服 
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务 ; 在 电源 管理 方面 ,时 面 版 配置 更 市 能 ,服务 右 版 配置 则 可 能 局 用 高 性 能 , 功 耗 更 大 ) 安全 
操作 系统 .虚拟 化 系统 和 专用 定制 系统 五 大 类 。 
> 桌面 版 :不 但 文 持 X86/X64 .ARM 以 构 的 处 理 需 , 也 文 持 龙 必 、 申 威 .飞腾 等 非 X86 和 
ARM 架构 的 处 理 需 ,并 且 基 于 deepin-wine 技术 支持 运行 大 量 的 Windows 软件 。 
> 服务 器 版 : 文 持 X86/X64 巢 构 处 理 禹 和 部 分 国产 处 理 硕 平台 ,同时 也 文 持 运行 Docker + 
K8s .OQpenStack + KVM 等 应 用 上 场景。 
> 安全 操作 系统 ;该 版 本 符合 公安 部 信息 安全 等 保 标准 ,适用 于 政 企 单位 的 机 要 部 门 ， 
文 持 国 际 标准 的 TPM 和 国内 的 TCMZTPCM 标准 ,并 具有 以 下 特性 : 
。 文 持 高 强度 的 口令 认证 以 增强 用 户 号 份 鉴别 的 安全 性 ; 
。 可 根据 文件 属 主 确定 月 主权 限 , 做 到 日 主 访问 控制 ; 
e 对 主体 和 客体 进行 分 级 安全 标记 ; 
。 文 持 管理 分 权 , 杜 绝 控 制 权限 沁 滥 引起 的 安全 风险 ，; 
。 文 持 全 登录 周期 的 安全 审计 .警告 和 追踪 ; 
。 文 持 用 户 数据 完整 性 , 阻 断 客 体 攻击 ; 
。 文 持 数据 保密 性 策略 ,确保 信息 安全 ; 
。 文 持 限定 用 户 资源 ; 
。 文 持 半自动 化 的 敏感 信息 发 现 ; 
e 提供 配置 散 列 、 密 钥 \ 不 可 读 写 、 只 可 校 验 等 安全 机 制 ; 
。 文 持 可 信和 度量 ,从 BIOS 起 就 对 设备 ,内核 和 文件 进行 可 信和 性 度量 。 
> 虚拟 化 系统 :基于 VOI( Virtual OS Infrastructure ,虚拟 操作 系统 基础 架构 ) 技术 的 虚拟 
终 站 管理 系统 , 文 持 通过 网 络 而 非 本 地 硬盘 该 取 虚 拟 安全 系统 镜像 到 本 地 以 司 动 操 
作 系 统 。 
> 专用 定制 系统 :可 针对 军工 金融. 轨 站 交 通 等 行业 进行 量 身 打造 。 
当然 ,作为 与 CPU 同等 重要 的 操作 系统 ,人 研 发 出 来 只 是 解决 了 有 没有 的 问题 ,生态 莱 不 
兼容 才 是 最 核心 的 好 不 好 的 问题 。 国 产 操作 系统 特别 是 昌 面 和 服务 硕 系统 在 这 一 点 上 任 重 
而 道 远 。 近 年 来 ,中 电 集 团 也 是 花 大 力 打 造 了 中 国 的 “PK 体系 ”,“P”"“ 上 ”两 个 字母 分 别 代 
表 了 天 津 飞腾 (Phytium) 和 银河 甬 麟 (Kylin ) ,前 者 是 ARM 架构 CPU 的 提供 商 , 后 者 是 国产 
操作 系统 的 开发 者 ,二 者 互相 磨合 互相 适 配 ,打造 中 国 的 "Wintel "生态 体系 。 


本 章 小 结 


在 本 章 中 ,我 们 将 0SI 七 层 参 考 模型 与 TCP/IP 五 层 模型 作 了 对 比 ,并 明确 了 应 用 层 协 
议 的 功能 和 范围 。 在 协议 栈 的 每 一 层 我 们 都 挑 出 来 了 一 些 有 代表 性 的 或 比较 新 颖 的 协议 进 
行 介绍 。 这 些 协 议 都 是 与 应 用 软件 密切 相关 的 。 

网 络 层 协议 最 主要 的 功能 一 个 是 数据 封装 与 传输 ,一 个 是 传输 控制 和 差错 控制 。 
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在 传输 层 ,我 们 引入 了 RUDP 的 概念 。RUDP 本 质 上 就 是 UDP 的 快速 传输 +TCP 的 拥 
寨 控 制 ,中 和 了 两 种 传统 协议 的 优点 以 文 持 快 速 可 靠 的 连接 。 本 章 要 介绍 的 QUIC 、UDT 等 
协议 都 是 RUDP 的 具体 实例 和 应 用 。 在 本 章 中 我 们 也 者 重 讲 述 了 TCP 拥塞 控制 机 制 及 其 相 
关 算 法 ,特别 是 在 长 肥 网 络 中 的 拥塞 控制 。 但 是 ,拥塞 控制 不 是 传输 技术 ,而 是 一 种 控制 
理论 。 

在 传输 层 协 议 部 分 ,重点 介绍 SCTP、QUIC、UDT\TLS 协议 以 及 TCP 的 拥塞 控制 和 加 
速 技术 。 

在 应 用 层 协 议 部 分 ,分 成 视 联 网 协议 栈 和 物 联网 协议 栈 两 部 分 子 以 介绍 。 在 视 联网 协 
议 栈 部 分 介绍 了 :专门 用 于 视频 传输 的 SRT 协议 , RTPZRTCP 的 加 密 版 本 SRTP/SRTCP 协 
议 , 音 视 频 封 友协 议 PES .TS 、PS ,视频 会 议 相 关 协 议 H. 323 协议 和 族 ,以 及 最 上 层 的 视频 互联 
互通 协议 CBMT 28181 等 。 在 物 联 网 协议 部 分 介绍 了 什么 是 接 人 协议 ,什么 是 应 用 协议 。 这 
两 种 协议 一 下 一 上 ,也 构成 了 协议 栈 的 层次 结构 。 

最 后 ,在 网 络 安全 部 分 分 别 介 绍 了 :狭义 的 网 络 安 全 包括 了 哪些 内 容 , 面 临 着 哪些 威胁 ， 
视 联 网 安全 是 怎么 回 事 ,特别 是 在 公安 专 网 环境 下 怎样 做 到 多 源 异 质 网 络 的 融合 ;自主 可 控 
包含 哪 几 方面 ,CPU 和 操作 系统 目 主 可 控 的 现状 是 怎么 样 的 。 
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